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本 书 由 “ 行 行 ?整理 ， 如 果 你 不 知道 读 什么 书 或 者 想 获得 更 多 免费 电子 书 
请 加 小 编 微 信 或 QQ: 2338856113 小 编 也 和 结交 一 些 喜 欢 读书 的 朋友 或 
者 关注 小 编 个 人 微 信 公 众 号 名 称 : 幸福 的 味道 为 了 方便 书 友 朋友 找 书 和 
看 书 ， 小 编目 己 做 了 一 个 电子 书 下 载 网 站 ， 网 站 的 名 称 为 : 周 读 网 址 : 


www.ireadweek.com 
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目录 
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技术 顾问 组 


现在 再 来 看 看 了 解 到 的 情况 


星 巴 仕 调 查 表 


以 控制 组 为 基准 


其 八 ， 随机 性 
其 九 : Google Docs 


其 十 ;你 的 专业 技能 
附录 B: 安装 R 局 动 Rl 
R 起 步 
附 孙 C: 安 效 Excel 分 析 工 具 ToolPak 
生 Excel 中 安装 数据 分 析 工 具 
索引 
如 采 你 不 知道 读 什 么 书 ， 


忠 天 注 这 个 微 信号 。 


微 信 公众 号 名 称 : 幸福 的 味道 
加 小 编 微 信 一 起 读书 


小 编 微 信号 : 2338856113 


【幸福 的 味道 】 已 提供 200 个 不 同类 型 的 书 单 

1、 历 届 茅 盾 文学 奖 获 奖 作品 

2、 每 年 豆 辨 ， 当 当 ， 亚 马 壕 年 度 图 书 销售 排行 榜 
3、25 允 前 一 定 要 读 的 25 本 书 

4、 有 生 之 年 ， 你 一 定 要 看 的 25 部 外 国 纯 文学 名 著 

5、 有 生 之 年 ， 你 一 定 要 看 的 20 部 中 国 现 当代 名 著 

6、 美 国 亚 马 进 编辑 推荐 的 一 生 必 读书 单 100 本 

7、 30 个 领域 30 本 不 容错 过 的 入 门 书 

8、 这 20 本 书 ， 是 各 领域 的 茵 峰之 作 

9、 这 7 本 书 ， 教 你 如 何 高 效 读书 

10、 80 万 书 虫 力荐 的 “给 五 星 都 不 够 "的 30 本 书 

关注 “幸福 的 味道 微 信 公 众 号 ， 即 可 查看 对 应 书 单 和 得 到 电子 书 
也 可 以 在 我 的 网 站 ( 周 读 ) www.ireadweek.com 自行 下 载 
备用 微 信 公众 号 : 一 种 思路 


内 容 简介 


《深入 浅 出 数据 分 析 》 以 类 似 “ 章 回 小 说 ”的 活泼 形式 ， 生 动 地 向 读者 展 
现 优 秀 的 数据 分 析 人 员 应 知 应 会 的 技术 : 数据 分 析 基 本 步骤 、 实 验方 
法 、 最 优化 方法 、 假 设 检 验方 法 、 贝 叶 斯 统计 方法 、 主 观 概 率 法 、 启 发 
法 、 直 方 图 法 、 回 归 法 、 误 差 处 理 、 相 头 数据库、 数据 整理 技巧 ;正文 
之 后 ， 意 犹 未 尽 地 以 三 篇 附录 介绍 数据 分 析 十 大 要 务 、R 工 具 及 ToolPak 
工具 ， 在 充分 展现 目标 知识 以 外 ， 为 读者 搭建 了 走向 深入 人 研究 的 桥梁 。 


本 书 构 思 跌 宕 起 伏 ， 行 文 妙趣 横生 ， 无 论 读者 是 职场 老手 ， 还 是 业界 新 
人 ; 无 论 是 字 项 句 酌 ， 还 是 信 手 翻阅 ， 都 能 跟着 文字 在 职场 中 走 上 几 
回 ， 体 味 数 据 分 析 领 域 的 乐趣 与 挑战 。 
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本 书 荐 秤 


“是 时 候 写 一 本 通俗 易 履 、 内 容 全 面 的 数据 分 析 知 识 指 南 了 ， 好 让 概念 的 
学 习 变 得 既 人 简单 又 有 趣 。 借 助 各 种 成 熟 的 技术 和 人 免费 的 工具 ， 数 据 分 析 


1 。 概念 对 理论 有 用 ， 对 实践 更 有 


一 一 Anthony Rose，Support Analytics 公 司 总 裁 


“《 深 入 浅 出 数据 分 析 》 写 得 漂亮 ， 读 者 可 以 学 到 分 析 现 实 问题 的 系统 性 
方法 。 从 卖 咖啡 到 开 模 皮 玩 具 厂 ， 再 到 要 求 老板 涨 工 资 ， 此 书 告 诉 我 们 
如 何 发 现 和 解密 数据 在 日 常生 活 中 的 强大 作用 。 从 图 形 图 表 到 Excel 和 R 
计算 机 程序 ，《 深 入 浅 出 数据 分 析 》 想 尽 办 法 让 各 个 层次 的 读者 都 体会 
到 系统 化 的 数据 分 析 对 于 制定 大 大 小 小 的 决策 的 强大 作用 。” 


Eric Heilman ， 乔 治 敦 预备 学 校 统计 学 教师 
“被 堆积 如 山 的 数据 压 得 跨 不 过 气 了 ? 让 Michael Milton 做 你 的 老师 吧 ， 在 
办 公 工 具 里 添上 数据 分 析 工 具 ， 抢 占 技 术 先 机 。《 深 入 浅 出 数据 分 析 》 

将 告诉 你 如 何 将 原始 数据 转变 成 真正 的 知识 。 别 再 抽签 算 卦 了 一 一 几 套 
软件 ， 一 本 《深入 浅 出 数据 分 析 》， 就 能 让 你 做 出 正确 的 决策 。” 

Bill Mietelski， 软 件 工程 师 


深入 浅 出 系列 图 书 美誉 


“Kathy 和 Bert 合 著 的 《深入 浅 出 Java》 (Head First Java ) 让 和 白 纸 黑 字 摇 
号 一 变 ， 成 为 读者 领略 过 的 最 接近 GUI 的 作品 。 作 者 以 幽默 、 新 潮 的 风 
格 ， 让 学 习 Java 成 为 不 断奶 问 ' 他 们 接 下 来 打算 怎么 办 呢 ? “的 愉快 体 


验 。” 


Warren Keuffel，《 软 件 开发 杂志 》 


“《 深 入 浅 出 Java》 (Head First Java ) 引人入胜 的 风格 会 把 一 无 所 知 的 
你 变 成 斗志 昂扬 的 Java 战 士 ， 不 仅 如 此 ， 书 中 还 收入 了 大 量 实用 事例 ， 这 
样 的 实用 事例 在 其 他 文章 中 只 会 留 给 恐怖 的 ' 读 者 练习 :。 此 书 蹇 智 、 幽 
默 、 新 潮 而 实用 能 在 讲授 对 象 序 列 化 和 网 络 加 载 协议 知识 的 同时 有 
这 样 的 主张 并 坚持 做 到 的 书籍 并 不 多 见 。 


Dan Russell 博 士 ，IBM Almaden 研 究 中 心 用 户 科 学 和 用 户 体 验 研究 
室 主任 ( 兼 斯 坦 福 大 学 人 工 智能 教师 ) 


此 书 明快 风趣， 玩 世 不 蕉 引人入胜。 细心 读 一 你 可 能 确实 能 学 到 
乐 四 ! ” 


Ken Arnold， 曾 任 Sun Microsystems 高 级 工程 师 ， 与 Java 创 始 人 
James Gosling 合 著 《J ava 编 程 语 言 》 〈The Java Programming ee 


“如 醒 柄 灌顶， 脑海 中 堆积 如 山 的 书本 知识 一 下 子 消化 了 。” 
Ward Cunningham， 维 基 百 科 发 朋 人 ，Hillside Group 创立 人 


“ 正 合 我 们 这 些 喜欢 研究 技术 、 生 活 随意 的 程序 员 的 口味 ， 实 用 开发 策略 
0 无 须 硬 着 头皮 应 付 迁 腐 和 之 味 的 
夭 1 有 0 算 


Travis ”Kalanick，Scour 网 站 和 Red Swoosh 网 站 创始 人 ， 获 麻 省 理 
工学 院 TR100 (《 技 术 回 顾 》 世 界 百 名 青年 创新 学 者 ) 称号 


“有 的 书 是 用 来 买 的 ， 有 的 书 是 用 来 藏 的 ， 还 有 的 书 是 用 来 捍 在 案头 的 。 
感谢 O'Reilly 和 Head First 的 员工 ， 他 们 出 了 最 高 等 级 的 书 一 一 深入 浅 出 
(Head First ) 系列 ， 让 人 爱不释手 、 百 读 不 大 。《 深 入 浅 出 SQL》 

(Head First SQL ) 是 我 最 心爱 的 书 ， 都 快 翻 烂 了 。” 


Bill Sawyer，Oracle 公 司 ATG 课 程 经 理 


“本 书 的 透彻 、 幽 默 和 害 智 令 人 钦佩 ， 连 编程 门外汉 也 能 借助 这 样 的 书 想 
出 办 法 解决 问题 。” 


Cory Doctorow， 博 客 网 站 BoingBoing 拟 稿 人 合作 编辑 ， 著 有 《魔法 
i Down and Out in the Magic Kingdom ) 及 《人 来 人 往 的 


Someone Comes to Town, Someone Leaves Town 


“昨天 收 到 书 束 开 始 读 ..….…… 人 个 下 来 了 ， 真 是 酷 结 了 。 书 很 有 趣 ， 
内 容 扎 实 ， 切 中 肯 演 。 印象 太 好 了 


Erich Gamma，IBM 杰出 工程 师 ，《 设 计 模 式 》 ( Design Patterns 
) 合 著者 


“我 读 过 的 最 有 趣 、 最 高 明 的 软件 设计 图 书 之 


Aaron LaBerge，ESPN.com 技 术 副 主席 


“过 去 要 犯 着 错误 摸索 前 进 的 漫长 学 习 过 程 ， 现 在 干净 利落 地 浓缩 在 一 本 
迷人 的 平装 书 中 。” 


一 Mike Davidson，Newsvine ，Inc. 首席 执行 官 


“每 一 章 都 凝聚 着 优雅 的 设计 ， 每 一 条 原理 无 不 饱含 实用 价值 与 内 光 智 
起 o 3 


Ken Goldstein， 迪 斯 尼 在 线 执行 副 总 裁 


“我 w《 深 入 浅 出 HTML + CSS & XHTML》 (Head First HTML with CSS & 
XHTML ) 。 它 以 有 趣 , 的 模式 ， 将 全 部 知识 倾 事 相 授 。” 


Sally Applin，UI 设 计 师 、 艺 术 家 
“通常 ， 了 阅读 设计 模式 方面 的 书 或 文章 时 ， 我 都 得 头 巧 染 锥 刺 股 才能 保证 
注意 力 集中 。 这 本 书 却 是 个 例外 ， 听 起 来 可 能 有 点 怪 ， 这 本 书 让 学 习 设 
计 模 式 变 得 恤 然 有 趣 。 


“ 当 其 他 设计 模式 方面 的 书籍 还 在 教 读 着 呀 呀 学 语 时 ， 这 本 书 却 已 在 踏 当 
高 歌 ' 加 油 ， 兄 弟 ! 六 


Eric Wuehler 
“我 实 实在 在 爱 这 本 书 。 不 有 瞒 大 家 说 ， 我 当 着 老婆 的 面 亲 了 这 本 书 。” 


Satish Kumar 


O'Reilly 其 他 相关 图 书 

Analyzing Business Data with Excel 

Excel Scientific and Engineering Cookbook 
Access Data Analysis Cookbook 
O'Reilly 深 入 浅 出 系列 其 他 图 书 

Head First Java 


Head First Object-Oriented Analysis and Design (OOA&D) 


Head First HTML with CSS and XHTML 
Head First Design Patterns 

Head First Servlets and JSP 
Head First EJB 

Head First PMP 

Head First SQL 

Head First Software Development 
Head First JavaScript 

Head First Ajax 

Head First Physics 

Head First Statistics 

Head First Rails 

Head First PHP & MySQL 

Head First Algebra 

Head First Web Design 


Head First Networking 


译 将 此 书 献 给 我 的 祖母 Jane Reese Gibbs 


作者 简介 


Michaet /Mitton ) 


Michael Milton 将 自己 的 大 半 职 业 生 涯 献 给 了 非 僵 利 机 构 ， 帮 助 这 些 机 构 


解析 和 处 理 从 赞助 人 那里 收集 来 的 数据 ， 提 高 融资 能 力 。 


Michael Milton 拥 有 新 佛 罗 里 达 学 院 折 学 学 位 及 耶鲁 大 学 宗教 伦理 学 学 
位 。 多 年 来 ， 他 博多 群 书 ， 这 些 书籍 虽 字 字 珠 丽 ， 却 枯燥 乏味 ， 墓 然 拾 
首 ， 深入 浅 出 (Head First ) 系列 图 书 让 他 眼前 一 亮 ， 他 欣然 抓 住 机 会 ， 
写 出 了 这 本 同样 字 字 珠 现 ， 兼 振 备 人 心 的 书 。 


走出 图 书馆 和 书店 ， 人 们 会 看 到 他 在 跑步 、 摄 影 ， 以 及 杀手 配制 啤酒 。 
译 者 序 


2010 年 2 月 ， 春 和 将 至 ， 我 回 博文 视点 的 某 个 邮箱 寄 出 了 一 封 请 求 参加 翻 
译 任何 一 本 图 书 的 邮件 。 很 快 ， 有 人 回信 了 ， 内 容 人 简单 明了 : 请 下 载 并 
试 译 第 1 章 1~17 页 内 容 。 落 款 是 博文 视点 编辑 徐 定 翔 。 于 是 我 试 译 ， 寄 
出 ， 然 后 等 待 。 春 下 过 去 了 ， 一 切 都 从 节日 的 情 懒 中 苏醒 过 来 一 一 包括 
ee 通过 。 合 作 事 项 很 快 商定 ， 工 作 束 这 样 开 始 


如 今 已 十 2010 年 8 月 ， 稿 件 已 如 期 交付 ， 按 照 出 版 惯例 ， 我 可 以 占用 一 点 


篇 幅 ， 谈 谈 这 本 书 。 


正如 O'Reilly 出 版 社 的 Head First 系 列 的 其 他 图 书 那 样 ， 本 书 在 语言 组 织 、 
排版 设计 方面 非常 有 特色 ， 用 “新 颖 ?二 字形 容 宫 不 为 过 ， 用 “周到 ”二 字形 
容 也 十 分 妥当 。 


其 构思 跌宕 起 伏 ， 其 行文 妙趣 横生 ， 无 论 读者 是 职场 老手 ， 还 是 业界 新 
人 ; 无 论 是 字 鞭 句 酌 ， 还 是 信 手 翻阅 ， 相 信和 都 能 跟着 文字 在 职场 中 走 上 
几 回 ， 体 味 数 据 分 析 领 域 的 乐趣 与 挑战 。 一 本 技术 图 书 ， 在 传道 授 业 之 
外 ， 又 为 读者 送 上 了 对 回 小 说 的 精彩 。 


这 些 设计 巧妙 的 * 章 回 ” 生 动 地 回 读 者 展现 了 数据 分 析 基 本 步骤 、 实 验方 
法 、 最 优化 方法 、 假 设 检 验方 法 、 贝 叶 斯 统计 方法 、 主 观 概 率 法 、 启 发 
法 、 直 方 图 法 、 回 归 法 、 误 差 处 理 、 相 关 数 据 库 、 数 据 整 理 技巧 ， 此 后 
意犹未尽 ， 又 以 3 篇 附 孙 介绍 数据 分 析 十 大 有 要务 、R 工 具 及 ToolPak 工 具 ， 
在 尽情 展现 目标 知识 以 外 ， 为 读者 搭建 了 走 同 深入 人 研究 的 桥梁 。 


与 我 们 司空 见 惯 的 很 多 书籍 不 一 样 ， 本 书 更 愿意 引导 读者 进行 思考 ， 而 
不 愿 向 读者 灌输 现成 的 条 条 框框 去 禁 钢 读者 的 想象 空间 。 在 本 书 点 到 即 
止 的 启发 下 ， 读 者 很 有 可 能 跃跃欲试 ， 急 不 可 待 地 要 把 目光 投向 更 宽 、 
ee 发 掘 更 多 的 数据 分 析 知 识 ， 以 便 早 日 成 为 数据 分 析 达 


文章 字里行间 流露 出 作者 传道 授 业 的 热忱 ， 以 下 仅 举 两 例 : 


一 十 设法 克服 术语 的 障碍 。 这 一 点 ， 英 语 使 用 者 翁 怕 比 中文 使 用 者 体会 
更 深 ， 层 出 不 穷 的 英语 术语 甚至 让 以 英语 为 母语 的 读者 感到 厌倦 和 头 


痛 ， 作 者 深 知 这 一 点 ， 于 是 尽量 用 浅显 的 语言 表述 ， 解 除 贡 语 读者 的 心 
头 之 患 ， 人 至 于 中 文 ， 感谢 祖国 语言 的 优秀 特性 ， 倘 车 作 为 译 者 的 我 没有 
在 这 里 帮 倒 忙 ， 术 语 方面 的 问题 甚至 可 以 忽略 不 计 了 (为 方便 读者 审 
评 ， 部 分 术语 翻译 对 照 表 可 在 此 下 载 : http:/images.china- 
pub.com/ebook195001-200000/197047/shuyu.pdf) 。 


二 是 设法 实现 理论 与 实践 的 转化 。 理 论 如 何 向 实践 转化 ， 一 向 是 学 习 者 
的 难题 。 然 而 本 书 精心 构思 的 “ 章 回 ”体裁 ， 却 让 理论 知识 与 实际 操作 水 
乳 交 融 ， 职 场 气 恩 扑面 而 来 ， 除 了 谈 分 机， 作者 也 谈 经 济 、 谈 局 势 、 谈 
心理 、 谈 做 人 ,涉猎 广泛 ,面面俱到 。 

能 够 理解 ， 作 者 希望 这 本 书 成 为 读者 书架 上 的 肖 备 手册 ， 在 读者 走 进 数 
据 分 析 领 域 之 初 ， 或 是 遇 到 从 业 疑 难 时 ， 提 供 力所能及 的 帮助 。 我 也 如 
此 硕 望 。 

最 后 ， 请 容 我 借 本 序 人 致谢 : 

感谢 博文 视点 。 

感谢 徐 定 翔 编辑 对 我 的 信任 和 指教 。 


感谢 家 人 对 我 的 理解 和 文 持 。 


李 方 


2010 年 8 月 


真 难 瀛 直人， 他 们 竟 
把 这 些 东 西 写 进 讲 数 
据 分 析 议 书 里 了 . 


本 届 回 答 一 个 热门 问题 “作者 为 什么 非 要 把 这 些 东 西 写 进 一 本 讲 数 据 分 
析 的 书 里 ? ” 


谁 适合 阅读 本 书 ? 
请 先 回答 几 个 问题 


你 觉得 ， 数 据 中 隐 含 了 无 穷 的 智 达 ， 只 要 有 合适 的 工具 ， 台 能 
利用 这 些 智慧 ， 对 吗 ? 


你 想 学 习 、 理 解 和 记忆 如 何 创建 舰 丽 的 图 形 、 试 验 假设 条 件 、 
进行 回归 分 析 或 整理 混乱 的 数据 ， 对 吗 ? 


你 喜欢 笑语 喧哗 的 晚辈 甚 于 枯燥 、 无 聊 的 学 术 演 讲 ， 对 吗 ? 


如 果 以 上 问题 全 部 回答 "对 ! ”这 本 书 适合 你 。 
谁 该 和 本 书 说 拜拜 9 
请 先 回答 几 个 问题 


你 是 一 个 经 验 老 道 的 数据 分 析 师 ， 正 在 调查 数据 分 析 领 域 最 前 
沿 的 课题 ， 对 吗 ? 


你 从 未 用 过 Microsoft Excel 或 OpenOffice calc， 对 吗 ? 

你 惧怕 务 试 新 事物 ， 宁 可 上 山 打 虎 也 不 愿 标新立异 ， 对 吗 ? 你 

ee 目标 函数 ， 技 术 书 籍 就 难免 有 
者， 对 轩 ? 


只 要 有 一 个 问题 回答 <x!” 


你 与 本 书 无 缘 。 


[营销 部 撒 话 -一 只 要 有 信用 卡 就 可 以 买书 哦 。] 
我 们 了 解 你 在 想 什么 

“这 怎么 能 是 一 本 严肃 的 数据 分 析 图 书 呢 ? ， 

“这 些 图 都 是 用 来 干 嘛 的 ? ” 

“我 真能 这 样 学 数据 分 析 吗 ?” 

我 们 了 解 你 的 大 脑 在 想 什 么 


你 的 大 脑 渴 望 新 事物 。 大 脑 总 是 不 停 地 搜索 、 探 查 、 等 待 不同 寻常 的 事 
物 ， 它 天 生 如 此 ， 这 正 是 你 活力 的 来 源 。 


那么 ， 大 脑 怎 么 对 竺 你 所 磁 到 的 常规 、 ` 一 般 的 事情 呢 ? 一 一 它 会 
沁 入 公分 昌 芋 全 这 事 傅 以 名 下 扰 自 忆 真 正 的 工作 2 沁 有 重要 事 所 。 
ae 
项 ”的 天 卡 。 


你 的 大 脑 如 何 知道 哪 件 事 重 要 ? 假想 有 一 天 你 出 门 旅行 ， 迎 面 扑 来 一 只 
吊 睛 白 额 大 虎 ， 你 的 头脑 和 喘 体会 有 什么 反应 ? 


神经 元 发 动 ….…. 情 绪 激 动 …... 化 学 物质 激增 
于 是 ， 你 的 大 脑 知 道 一 一 
这 事 绝对 重要 ! 记 住 ! 


但 ， 想 像 你 是 未 在 家 里 ， 或 者 是 采 在 图 书馆 里 ， 也 吏 是 说 ， 是 在 一 个 安 
人 全、 温暖 、 没 有 老虎 的 地 方 。 


你 正在 复习 迎 考 ， 要 不 然 束 是 在 努力 弄 明 日 一 些 艰深 的 技术 ， 你 的 老板 
认为 花 个 把 星期 瑟 能 搞定 ， 顶 多 十 天 。 


唯一 的 问题 是 : 你 的 大 脑 想 好 好 帮 你 一 把 ， 它 试图 保证 不 让 这 种 “明显 不 
重要 ”的 内 容 去 破坏 珍稀 的 资源 ， 这 些 珍稀 的 资源 最 好 用 来 保存 真正 < 重 
大 ”的 事情 ， 像 老虎 啊 ， 像 火灾 险情 啊 ， 像 你 绝 不 该 在 大 学 生 网 站 
Facebook 的 网 页 上 贴 上 那些 察 会 照片 啊 。 没 有 什么 便当 的 办 法 可 以 告诉 
大 脑 “ 喂 ， 大 脑 ， 我 对 你 感激 之 至 ， 可 惜 啊 ， 不 管 这 本 书 多 无 聊 ， 也 不 管 
我 的 情感 地 动 仪 如 何 纹 丝 不 动 ， 我 真 的 希望 你 把 这 些 材 料 都 记 住 。” 


我 们 认为 该 系列 图 书 的 读者 都 是 学 习 者 。 
既然 要 学 习 ， 怎 样 才能 学 会 呢 ? 首先， 你 得 搞 届 ， 然 后 ， 切 勿 遗 
拟 ; 一 字 一 句 重 塞 不 是 办 法 。 根 据 最 新 的 认 知 科学 、 神 经 生物 学 及 
教育 心理 学 研究 结果 ， 学 习 远 不 仅仅 是 读书 认 字 。Head First 知道 息 
么 让 你 的 脑筋 动 起 来 。 


下 面 是 部 分 深入 浅 出 ( Head First ) 教学 原则 : 


将 知识 图 形 化 。 图 形 比 单调 的 文字 好 记得 多 ， 可 以 提高 学 习 效 率 
(记忆 学 习 和 转移 学 习 的 学 习 效 率 最 多 能 提高 89%) ; 图 形 还 能 让 知 
识 更 容易 理解 ， 相 比 将 文字 放 在 页 脚 和 下 一 页 ， 将 文字 放 在 相关 图 
0 学 习 者 成 功 解决 相关 问题 的 可 能 性 将 成 倍增 


采用 对 话 式 的 个 性 化 风格 。 最 近 的 研究 表明 ， 要 是 回避 一 本 正经 的 
语气 ， 代 之 以 对 话 般 的 风格 ， 以 第 一 人 称 平 易 近 人 地 给 学 生 上 课 ， 
学 生 的 课 后 测验 成 绩 最 多 可 提高 40%。 多 讲 几 个 故事 ， 少 来 一 点 高 谈 
阔 论 ， 语 气 宜 随和 。 别 太 郑 重 其 事 。 想 想 看 ， 一 局 笑语 喧哗 的 晚宴 
和 一 场 演讲 ， 哪 一 样 更 让 你 慷 记 ? 


引导 读者 深入 思考 : 换 句 话说 ， 除 非 读者 主动 调动 自己 的 神经 元 ， 

否则 脑袋 里 不 会 发 生 什么 大 变化 。 只 有 激发 读者 的 兴趣 ， 引 起 读者 
的 好 奇 ， 刺 激 读者 的 灵感 ， 读 者 才能 解决 问题 ， 得 出 结论 ， 获 得 新 
知识 。 为 此 ， 讲 授 者 要 设计 各 种 难题 、 练 习 ， 提 出 引信 深思 的 提 
问 ， 还 要 多 让 读者 做 一 些 让 左右 脑 半 球 和 多 种 感官 都 动 起 来 的 活 


动 。 


牢 牢 吸引 读者 的 注意 力 。 大 家 都 有 这 样 的 体验 一 一 “我 是 真 想 学 ， 但 
看 完 第 一 页 就 曼 了 ”。 大 脑 注意 的 是 不 同 寻 常 的 有 趣 的 、 奇 怪 的 、 


引 人 注 意 的 、 出 人 意料 的 事情 。 学 习 一 种 新 颖 艰深 的 技术 不 一 定 非 
得 枯燥 不 可 ， 如 果 它 不 是 这 样 乏 味 大 脑 会 学 得 更 快 。 


影响 读者 的 情感 。 现 已 知道 ， 人 的 记忆 能 力 在 很 大 程度 上 取决 于 要 
记忆 的 内 容 对 情感 的 影响。 我 们 关心 什么 ， 殊 会 记 住 什么 ;我们 对 
什么 事 有 感觉 ， 束 会 记 住 什么 。 这 里 讲 的 情感 并 非 天 灾 人 祸 给 人 种 
来 的 手心 裂 肺 的 念 痛 情 感 ， 而 是 惊讶 、 好 奇 、 感觉 有 趣 、 想 追根 究 
底 之 类 的 情感 ， 以 及 在 猜 对 一 个 字谜 、 在 学 会 别人 感觉 难以 学 会 的 
事情 或 是 在 意识 到 目 己 懂 的 东西 居然 比 工程 部 那 位 口 闭口 “我 比 你 
有 技术 ”的 张 三 还 多 时 ， 油 然而 生 的 “我 是 老大 ”的 感觉 


元 认 知 : 对 思考 的 思考 


怎样 才能 让 我 的 大 
脑 记 住 这 些 资 料 呢 ? 


如 果真 想 学 东西 ， 而 且 想 学 得 更 快 更 深入 ， 束 要 关注 目 己 如 何 集中 注意 
力 。 要 思考 目 己 的 思考 方式 ; 人 研究 目 己 的 研究 方式 。 


大 多 数 人 在 成 长 过 程 中 都 不 曾 学 习 元 认 知 和 学 习 理 论 方面 的 知识 。 人们 
期 望 我 们 学 知识 ， 但 极 少 有 人 教 我 们 如 何 学 。 


但 想象 得 到 ， 捧 着 本 书 的 你 ， 的 确 想 学 习 数据 分 析 知 识 ， 同 时 可 能 不 想 
花费 太 多 时 间 。 要 想 利用 在 本 书 中 读 到 的 知识 ， 就 得 记 住 读 过 的 知识 
为 此 必须 理解 这 些 知识 。 为 了 淋漓 尽 致 地 发 挥 本 书 或 任何 书本 或 学 习 经 
验 的 作用 ， 请 管 好 你 的 大 脑 ， 请 管 好 大 脑 对 待 本 书 的 态度 。 


记 守 在 于 让 大 脑 把 正在 学 习 的 新 资料 当做 “正经 大 事 ” 一 一 对 幸福 至 关 重 
要 的 大 事 ， 像 老虎 一 样 重要 的 大 事 。 若 非 如 此 ， 你 就 会 陷入 一 场 持久 
战 ， 你 竭力 要 记 住 新 知识 ， 大 脑 却 竭力 要 把 这 些 新 知识 跑 出 去 。 


既然 如 此 ， 如 何 让 大 脑 像 对 待 吃 人 的 老虎 一 样 对 竺 数据 分 析 知 识 呢 ? 


有 两 种 办 法 ， 一 种 线 慢 而 乏味 ， 一 种 迅速 而 有 效 。 慢 办 法 是 简单 记忆 。 
你 显然 明白 ， 只 要 不 停 地 把 同样 的 东西 往 大 脑 里 灌 ， 即 使 是 最 乏味 的 知 
识 ， 也 能 学 会 、 记 牢 。 只 要 重复 灌 的 次 数 足 够 多 ， 大 脑 就 会 想 , “这 些 东 
西 给 他 的 感觉 并 不 重要 ， 但 他 不 停 地 看 这 些 相 同 的 东西 ， 一 过 ， 一 过 ， 

再 一 壳 。 因此 我 猜 这 些 东西 肯定 很 重要 。 


快 办 法 是 做 一 切 增进 大 脑 活动 的 事 ， 尤 其 是 不 同类 型 的 大 脑 活 动 。 上 一 
页 讲 了 很 多 这 样 的 活动 ， 事 实证 明 ， 这 些 活动 全 都 能 促使 大 脑 以 有 利于 
己 的 方式 工作 。 例 如 ， 研 究 表明 ， 将 文字 放 在 文字 所 描述 的 图 片 当中 
《相反 的 做 法 是 将 文字 放 在 页 面 中 的 其 他 位 置 ， 如 注释 位 置 或 正文 位 
年) ， 会 促使 大 脑 努 力 搞 清楚 文字 和 图 片 之 间 的 关系 ， 进 而 发 动 更 多 神 
更 多 神经 元 发 动 = 更 有 机 会 让 大 脑 明白 某 件 事 值得 注意 ， 可 能 还 值 
得 i FE。 


对 话 式 的 写作 风格 对 此 很 有 帮助 。 人 们 在 与 人 对 话 时 注意 力 会 更 集中 ， 

原因 是 别人 期 得 他 们 有 所 表现 。 令 人 惊讶 的 是 ， 大 脑 不 一 定 会 在 意 “ 对 
话 ” 是 在 人 和 书 之 间 进 行 ! 反之 ， 要 是 写作 风格 了 无 狐 意 ， 乏 味 枯燥 ， 大 
脑 的 感觉 束 和 在 挤 满 消 极 听 众 的 屋子 里 听 演 讲 没什么 两 样 ， 没 必要 保持 


清醒 
不 过 ， 图 形 和 对 话 式 风格 只 是 起 步 ….…. 
我 们 的 做 法 


我 们 使 用 丰富 的 图 片 ， 这 是 因为 ， 大 脑 追 逐 图 像 ， 而 非 文 字 。 在 大 脑 的 
活动 中 ， 一 张 图 片 胜 过 千言 万 语 。 当 同时 使 用 图 片 和 文字 进行 说 明 时 ， 
我 们 将 文字 填写 在 图 片 当中 ， 当 文字 出 现在 它 所 描述 的 事物 当中 时 ， 大 
es 
内 效 木 闻 


我 们 使 用 反复 论述 法 ， 即 以 不 同 的 方式 、 通 过 不 同 的 媒介 对 同一 主题 进 
行 反 复 描述 ， 给 读者 营造 丰富 的 感受 ， 目 的 是 让 这 些 主题 有 更 多 机 会 印 
在 大 脑 的 多 个 区 域 。 


我 们 以 出 人 意料 的 方式 叙述 概念 和 使 用 图 片 ， 因 为 ， 大 脑 妃 逐 新 鲜 事 
物 ， 我 们 在 图 片 和 创意 中 或 多 或 少 加 入 了 一 些 情感 性 的 内 容 ， 因 为 ， 大 
脑 关 注 情感 的 生物 化 学 反应 。 让 人 有 所 感触 的 东西 更 可 能 让 人 记 住 ， 即 
使 这 点 感触 不 过 是 一 丝 幽默 、 一 丝 惊讶 或 一 丝 兴 趣 。 


我 们 使 用 个 性 化 的 对 话 式 写作 风格 ， 因 为 ， 当 大 脑 认 为 你 是 在 进行 对 话 
而 不 是 在 消极 地 听 报 告 时 ， 就 会 调整 到 注意 力 更 集中 的 状态 。 即 使 在 读 
书 时 ， 大 脑 也 是 这 个 习惯 。 


我 们 安排 了 80 多 个 活动 ， 因 为 ， 相 比 读书 ， 在 做 事 时 ， 大 脑 经 过 调整 ， 
能 学 会 和 记 住 更 多 东西 。 我 们 安排 的 练习 有 难度 ， 但 不 会 让 人 束 手 无 
策 ， 这 正 是 大 多 数 人 愿意 做 的 练习 。 


我 们 使 用 多 种 教学 风格 ， 因 为 ， 有 的 人 可 能 喜欢 一 步 一 步 按 顺 序 来 ， 有 
的 人 可 能 喜欢 先 看 懂 大 图 ， 还 有 一 些 人 可 能 只 想 看 看 例子 。 我 们 将 以 多 
I 
受益 菲 浅 。 


我 们 安排 了 让 左右 脑 半球 分 别 负责 的 内 容 ， 因 为 ， 大 脑 开动 部 位 越 多 ， 
束 学 得 越 多 ， 记 得 越 多 ， 注 意 力 更 持久 。 由 于 一 侧 大 脑 工 作 往往 意味 着 
男 一 侧 大 脑 得 到 休息 ， 左 右 半 脑 的 分 工 合作 使 得 长 时 间 学 习 的 学 习 效 率 


得 到 提高 。 
我 们 还 安排 了 一 些 场景 和 练习 ， 在 场景 中 展现 不 同 的 观点 ， 因 为 ， 当 大 
脑 被 迫 进 行 评估 和 判断 时 ， 会 调整 到 深入 学 习 状 态 。 


我 们 在 练习 中 安排 了 一 些 难 点 ， 即 提出 一 些 无 法 简单 回答 的 问题 。 
为 ， 你 的 大 脑 在 不 得 不 处 理 某 件 事情 时 ， 会 调整 到 学 习 和 记忆 状态 。 开 
动脑 筋 吧 ,“ 光 看 别人 做 运动 无 法 让 自己 体态 健美 >。 别 担心 ， 我 们 尽力 


Ee 你 努力 学 习 的 都 是 该 学 的 ， 你 不 会 为 了 对 付 一 个 费解 的 例子 或 为 
了 分 析 一 段 用 词 过 于 临 汐 或 行文 过 于 简练 的 段落 而 多 用 一 个 脑 细胞 。 


我 们 以 人 物 为 例 ， 把 人 物 安排 在 场景 、 实 例 、 图 片 等 内 容 中 。 至 于 原因 
嘛 ， 因 为 你 是 人 群 中 的 一 员 啊 ， 你 的 大 脑 对 人 比 对 事 更 关注 。 


你 的 任务 : 征服 大 脑 


我 们 的 工作 到 此 为 止 ， 剩 下 的 就 看 你 的 了 。 从 下 面 这 些 提示 出 发 ， 顺 从 
大 脑 的 判断 ， 看 看 哪些 对 你 有 用 ， 哪 些 对 你 没 用 ， 答 试 一 下 新 事物 吧 。 


Be 
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| 


gd 
把 这 张 图 前 下 来 ， 贴 在 冰箱 上 。 

慢 慢 读 。 理 解 的 内 容 越 多 ， 要 记忆 的 内 容 越 少 。 

忌 死 读 。 停 一 停 ， 想 一 想 ， 碰 到 书 中 的 提问 时 ， 别 直接 翻 看 答案 ; 
想象 真 的 有 人 在 问 你 这 个 问题 。 强迫 自己 的 大 脑 想 得 越 深 ， 学 会 、 
记 住 的 概率 就 越 大 。 

自己 做 练习 ， 目 己 记 笔 记 。 

我 们 安排 了 练习 和 笔记 ， 但 是 ， 要 是 我 们 替 你 完成 ， 束 像 让 别人 和 替 


你 锻炼 身体 一 样 ， 只 动 眼 不 动手 也 不 可 取 ， 要 动 动笔 。 大 量 证 据 证 
明 ， 学 习 时 的 身体 动作 能 提高 学 习 效率 。 


阅读 “世上 没有 傻 问 题 * 部 分 。 


世上 没有 傻 问题 。 这 些 问题 并 非 可 看 可 不 看 ， 这 是 核心 内 容 的 组 成 
部 分 ! 请 勿 名 略 。 


团 请 将 下 面 这 段 话 作 为 最 后 一 段 床 头 阅读 文字 ， 或 起 码 作 为 最 后 
一 段 高 深 的 床 头 阅读 文字 。 


有 一 部 分 学 习 过 程 (尤其 是 短暂 记忆 转变 为 长 期 记忆 的 过 程 ) 发 生 
在 放下 书本 之 后 ， 大 脑 需 要 有 自己 的 时 间 进 行 更 多 处 理 。 如 果 在 这 
段 处 理 时 间 内 学 新 东西 ， 将 会 丢失 一 些 刚 学 会 的 东西 。 
开口 大 声讨 论 。 

说 话 会 刺激 大 脑 的 其 他 部 分 。 如 果 你 正在 努力 理解 一 些 知识 ， 或 者 
正在 努力 增加 以 后 记 住 这 些 知识 的 概率 ， 请 大 声 说 出 这 些 知 识 。 还 
有 一 种 更 好 的 做 法 ， 试 着 向 别人 大 声 解 释 这 些 知 识 。 你 会 学 得 更 
快 ， 可 能 还 会 发 现 一 些 了 阅读 时 不 曾 发 现 的 名 得 。 

贺 大 量 喝 水 。 


充沛 的 体液 会 让 大 脑 处 于 最 佳 工作 状态 ， 脱 水 ( 早 在 感到 口 淘 前 整 
会 发 生 ) 则 会 让 认 知 功能 下 降 。 


聆听 大 脑 的 声音 。 

留意 你 的 大 脑 是 否 各 你 发 现 目 己 开 始 心 丰 在下， 或 者 
刚刚 读 过 的 东西 转眼 起 记 ， 就 该 休 恩 。 一 旦 过 了 某 个 学 习 点 ， 哪 怕 
拼命 塞 ， 也 无 法 提 高 学 习 效率 反而 有 可 能 影响 学 习 。 

辆 找到 感觉 。 


大 脑 需要 知道 事情 是 否 重 要 。 让 自己 融入 各 种 场景 ， 为 照片 设想 旁 
注 ， 就 连 抱怨 一 个 并 不 好 笑 的 玩笑 ， 也 比 什么 感觉 都 没有 强 。 


国 勤 加 练习 ! 


学 会 数据 分 析 的 唯一 办 法 束 是 勤 加 练习 ， 这 正 古 本 书 的 要 求 。 ;数据 
分 析 有 是 一 门 技术 ， 精 于 此 道 的 唯一 办 法 就 是 大 量 实践 。 本 书 将 给 你 


带 来 大 量 实践 机 会 ， 每 一 章 中 都 有 一 个 等 竺 你 解决 的 问题 ， 干 万 别 
跳 过 这 些 问题 不 看 一 一 大 量 学 习 都 发 生 在 解决 问题 的 过 程 中 。 我 们 
为 每 一 个 问题 提供 了 答案 ， 要 是 卡 了 壳 (有 些 细微 之 处 很 容易 给 人 
带 来 磋 烦 ) ， 别 不 敢 看 ! 不 过 ， 请 尽量 先 解决 问题 再 看 答案 ， 务 必 
让 你 的 办 法 行 之 有 效 ， 然 后 才 继 续 看 书 中 的 下 一 部 分 内 容 。 


目 述 


本 书 是 经 验 之 谈 ， 并 非 参考 书籍 ， 我 们 故意 抽 掉 了 会 妨碍 讲述 书 中 相关 
知识 的 东西 。 本 书 对 你 已 经 见识 过 和 学 习 过 的 知识 作 了 一 些 假设 ， 因 此 
第 一 次 通读 本 书 的 时 候 ， 需 要 从 头 读 起 。 


本 书 并 非 软件 工具 指导 书 。 


许多 以 “数据 分 析 ” 为 题 的 图 书 都 是 顺 着 Excel 函 数 表 把 认为 和 数据 分 析 有 
天 的 部 分 一 路 讲 下 去 ， 然 后 针对 每 个 函数 给 几 个 实例 。 但 《深入 浅 出 数 
据 分 析 》 讲 的 是 如 何 成 为 数据 分 析 师 ， 尽 管 你 在 本 书 中 会 学 到 相当 多 的 
但 它们 不 过 是 手段 而 已 ， 目 的 是 学 习 如 何 进行 出 色 的 数据 分 


我 们 希望 你 懂得 如 何 使 用 基本 的 电子 表格 公式 。 


用 过 电子 表格 的 SUM 求 和 公式 吗 ? 要 是 没 用 过 ， 你 可 能 先 要 突击 一 下 才 

能 开始 学 习 本 书 。 尽 管 许多 章节 根本 不 要 求 使 用 电子 表格 ， 但 其 他 有 此 

人 。 要 是 熟悉 SUM 工 具 ， 那 么 你 基础 
“ 错 。 


本 书 超越 统计 学 。 


本 书 充 满 统 计 知识 ， 作 为 数据 分 析 师 ， 你 应 该 尽量 多 掌握 一 些 统计 知 
识 ， 读 完 《 深 入 浅 出 数据 分 析 》 之 后 ， 最 好 再 读 一 读 《 深 入 浅 出 统计 
学 》 (Head First Statistics ) 。 不 过 ， 数 据 分 析 不 仅 涵盖 统计 学 ， 还 牵涉 
许多 其 他 领域 ， 本 书 中 选用 的 非 统计 题材 主要 用 于 讲解 来 源 于 现实 生活 
的 具体 、 实 用 的 数据 分 析 经 验 。 


活动 并 非 可 做 可 不 做 。 
练习 和 活动 不 是 点 级 ， 而 是 本 书 的 核心 组 成 部 分 。 这 些 练习 和 活动 有 的 


征 为 了 帮助 记忆 ， 有 的 是 为 了 帮助 加 深 理解 ， 还 有 的 是 为 了 帮助 应 用 所 
学 知识 ， 切 勿 忽略 。 


反复 论述 是 刻意 而 重要 的 安排 。 

深入 浅 出 系列 图 书 有 一 个 明显 特色 : 我 们 希望 你 真正 掌握 学 到 的 知识 ， 
我 们 希望 你 在 看 完 本 书 的 同时 就 记 住 学 到 的 知识 。 大 多 数 参 考 书 都 不 把 
记忆 和 回忆 当做 一 个 目标 ， 但 本 书 的 目标 是 学 会 ， 所 以 ， 稼 常会 看 到 同 
一 概念 多 次 出 现 。 

本 书 意犹未尽 。 


我 们 乐于 看 到 你 在 书籍 合作 网 站 上 找到 更 多 实用 而 有 趣 的 资料 ， 下 列 网 
站 可 为 你 提供 这 些 资 料 : 


http:/www.headfirstlabs.com/books/hfda/. 
“ 动 动脑 练习 没有 答案 。 
有 一 些 “ 动 动脑 ”练习 没有 标准 答案 ， 男 有 一 些 练习 可 以 参考 “ 动 动脑 ”活动 


的 学 习 经 验 部 分 判断 目 己 的 答案 是 否 正 确 ， 以 及 在 什么 情况 下 会 正确 。 
部 分 “ 动 动脑 ”练习 给 出 了 提示 ， 为 你 指明 正确 方向 。 


技术 顾问 组 


技术 顾问 : 


Eric Heilman ， 类 国 乔治 敦 大 学 沃 尔 什 外 交 学 院 优秀 毕业 生 ， 国 际 经 济 
学 学 位 。 在 哥伦比亚 特区 读 大 学 期 间 ， 曾 在 糯 国 国务 院 和 日 训 国 家 经 济 
委员 会 工作 。 他 在 芝加哥 大 学 完成 经 济 学 毕业 论文 ， 目 前 在 位 于 美国 马 
和 (Bethesda) 的 乔治 敦 大 学 预备 学 校 任 统计 分 析 和 数学 教 
| 用。 


Bill Mietelski ， 软 件 工 程 师 ， 三 度 担任 深入 浅 出 (Head First ) 技术 顾 
人 己 的 高 尔 夫 技 术 做 个 数据 分 析 ， 好 在 球场 上 一 
领 风 强 。 


Anthony Rose ， 在 数据 分 析 领 域 从 业 近 十 年 ， 目 前 任 Support Analytics 公 
司 总 裁 、 数 据 分 析 及 图 表 顾 问 。Anthony 拥 有 财务 与 管理 专业 工商 管理 硕 
十 学位， 他 对 数据 分 析 的 热爱 由 此 开始 。 工 作 之 余 ， 他 常常 出 现在 马里 
兰州 可 伦比 亚 市 的 高 尔 夫 球场 上 ， 陶 醉 在 好 书 中 ， 品 味 着 美味 的 葡萄 
酒 ， 或 者 和 年 幼 的 女儿 们 及 迷人 的 妻子 一 起 消磨 时 光 。 


致谢 

我 的 编辑 : 

Brian Sawyer ， 一 位 不 可 思议 的 编辑 。 和 了 Brian 一 起 工作 残 像 和 舞蹈 家 共 
舞 ， 各 种 各 样 重要 的 工作 纷 至 省 来 ， 虽 令 人 不 十 分 理解 ， 看 上 去 却 很 不 


错 ， 让 人 二 得 兴高采烈 。 我 们 的 合作 振奋 人 心 ， 他 的 文 持 、 反 馈 和 创意 
征 无 价 之 至 。 


Brian Sawyer 


O'Reilly 团 队 : 


Brett McLaughlin 一 开始 就 看 到 了 这 个 项 目的 前 途 ，3 引 领 项 目 走 过 艰 难 
罗 月 ， 始 终 如 一 地 支持 项 目 。Brett 孜 孜 不 众 地 强调 你 对 深入 浅 出 (Head 
First ) 书籍 的 体验 ， 让 人 备 受 救 姓 。 他 运筹 帷 幅 。 


rett Medoaughtlin 


Karen Shaner 提供 后 勤 文 持 ， 在 剑桥 寒冷 的 清晨 给 我 们 带 来 很 多 快乐 。 
Brittany Smith 页 献 了 一 些 非常 棒 的 图 形 元 隶 ， 供 我 们 反复 使 用 。 


给 我 启示 的 割 智者: 


本 书 有 大 量 出 色 的 创意 ， 许 多 创意 在 以 “数据 分 析 ” 为 题 的 书籍 中 颇 不 常 
见 ， 但 这 些 创 意 很 少 是 我 个 人 的 独创 。 我 从 Dietrich Doerner 、Gerd 
Gigerenzer、Richards Heuer、Edward Tufte 等 超级 智 星 的 的 作品 中 汲取 了 
量 经 验 。 把 他 们 的 作品 统统 读 一 遍 吧 !“ 反 查 ” (anti-resume) 这 个 创意 
出 自 Nassim Taleb 的 《 黑 天 笋 》 〈 真 希望 他 出 第 二 部 ， 带 来 更 多 创意 ) ，; 
Richards Heuer 好 心地 给 我 回信 讨论 本 书 ， 还 给 我 出 了 很 多 有 用 的 主 


is 


朋友 与 同事 : 


感谢 Lou Barr 为 本 书 提供 知识 产权 、 职 业 道德 、 逻 辑 学 及 美学 支持 ; 
Vezen Wu 给 我 讲解 关系 模型 ，Aron Edidin 在 我 大 学 求学 期 间 曾 赞助 我 学 
习 一 门 超 棒 的 情报 分 析 课 ; 我 的 牌 友 Paul、Brewster、Matt、Jon 和 Jason 
给 我 上 了 关于 均衡 使 用 启发 法 和 最 优化 决策 法 的 昂贵 一 课 。 


Blair 与 NiRo Christian 
离开 这 些 人 我 没 法 活 : 


技术 顾问 组 工作 出 色 ， 他 们 揪 出 成 堆 的 错误 ， 提 出 大 量 建议 ， 给 予 我 巨 

大 支持 。 在 本 书 撰写 过 程 中 ， 我 对 一 位 心思 费 密 的 统计 师 一 一 我 的 朋友 

ee 依赖 甚 深 ， 书 中 每 一 页 都 能 看 到 他 的 影子 。 谢 谢 你 为 我 做 
JJ 一 切 ，Blair 。 


我 的 家 人 Michael Sr、Elizabeth、Sara、Gary 和 Marie 给 了 我 巨大 的 支 
持 ， 尤 其 要 感谢 我 的 妻子 Julia 的 坚定 文 持 ， 她 是 我 的 一 切 。 谢 谢 我 的 全 
家 ! 


gulia Burch 


1 分 解数 据 
数据 分 析 引 言 


( 我 党 到 了 生 兰 、 大 其 、 
痰 椒 的 味 通 ， 可 能 还 有 站 | 


数据 无 处 不 在 。 


如 今 ， 不 管 是 不 是 目 称 数据 分 析 师 ， 人 人 都 得 处 理 堆 积 如 山 的 数据 。 熟 
说 一 切 数据 分 析 技术 方法 的 分 析 者 会 比 其 他 人 技 高 一 筹 : 他 们 知道 如 何 
处 理 所 有 的 数据 材料 ， 如 何 将 原始 数据 转变 成 推进 现实 工作 的 妙 策 ， 如 
ee 复杂 的 问题 和 数据 集 ， 进 而 牢 牢 把 握 工 作 中 的 各 种 问题 的 


Acme 化 妆 品 公司 需要 你 出 力 
这 是 你 走 上 数据 2 SL 天 ， 刚 刚 收 到 了 首席 执行 官 发 来 的 销 


售 数据 ， 需 要 查阅 一 下 。 数 据 反 映 了 Acme 公 司 旗 舰 产 品 狐 活 超 强 保 
湿 霜 的 请 售 稍 况 ° 


11 月 2 月 
$5 36 2300 $5 5342800 | 55 5540 


$5 729 A00 535217000| S6476 0 de 


5730 200 29800 53158900 s316 RD 
$316 800 $523 002 $739 200 S739 20 


单价 【村 家 习 | \ S2020 $2.00 s2.00 Si $1.90 $1. 
% 
有 
| 
有 的 守 | \\A\_ 你 种 捍 这 籽 单 奉 有 丰台 
吉 请 件 3 4 [9 二 3 zi a 2 T 卜 2 


看 看 这 些 数据 ， 不 必 抽 丝 剥 蔓 一 只 要 放 慢 速度 就 行 。 
看 出 什么 了 吗 ? 表格 让 你 对 Acme 的 业务 了 解 了 多 少 ? 对 Acme 的 貌 洁 超 强 


保湿 霜 了 解 了 多 少 ? 
优秀 的 数据 分 析 师 总 想 看 到 数据 。 


首席 执行 官 希望 数据 分 析 师 帮 他 提高 销量 
他 希望 你 “ 帮 他 分 析 分 析 ”。 
这 要 求 很 含糊 ， 不 是 吗 ” 听 起 来 挺 简单 ， 可 你 的 工作 会 那么 顺 吗 ? 不 


错 ， 他 和 希望 提高 销量 ; 不 错 ， 他 认为 这 些 数据 中 有 些 东西 能 帮助 实现 这 
个 目标 。 可 到 底 苹 哪些 东西 呢 ? 怎 么 帮 呢 ? 


稍 之 加 入 炬 们 网 团队 ， 曾 着 我 们 
兵 数 据 ， 和 给 栽 分析 分 析 ， 说 说 帮 
们 话 必 坷 提高 销量， 等 你 的 续 论 ， 


动 动脑 
想 想 首席 执行 官 主 要 想 从 你 这 里 得 到 什么 ， 同 时 思考 这 个 问题 : 做 


数据 分 析 到 底 意 味 着 什么 ? 


数据 分 析 就 是 仔细 推 胡 证 据 


数据 分 新 这 个 订 少 六 大 骂 形 形 色色 的 工作 和 大 
站 形形色色 的 技巧 。 就 算 有 人 人 明 站 人 告 这 你 :她 是 数 提 ph 
i Nr Ni < XC 位 似 此 听 已 1 
分 析出， 你 依然 万 法 确定 姓 的 专长. Ws 


水 可 能 会 打赌 说 此 翌 


但 是 ， 所 有 优秀 的 分 析 师 ， 无 论 专长 及 目标 如 何 ， 都 会 在 工作 过 程 中 按 
顺序 执行 下 面 这 个 固定 基本 流程 ， 同 时 通过 经 验 数 据 来 仔细 推敲 各 种 问 


题 。 


投放 是 右 折 关 党 ， 休 站 注 -- 岂 对 站 


六 而 沙 了 豆 列 晤 情况 作 玉 小 稳 纤 伦 ， 


ed | 
让 | 
A 
\ 1 
SN F 
V | 
\ 、 放 操 击 析 吕 腑 家 莫 时 上 \ 
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车 司 着 和 息 择 ， 认 二 来 吕 ， 竺 柜 这 哗 抱 从重 新 相合 辫 
a 一 起 ， 华 水 { 当 设 】 一 个 法 菜 ， 


1 
| 
水 -- 他 是 了 难 问 量 ， 


在 本 书 的 每 一 章 中 ， 你 会 一 次 又 一 次 地 按 顺 序 执行 这 些 步 又， 很 快 ， 这 
些 步 又 束 会 完全 成 为 你 的 第 二 本 能 。 


所 有 的 数据 分 析 师 最 终 都 会 被 打造 成 能 作出 更 好 决策 的 人 才 ， 你 要 学 的 
束 是 在 浩如烟海 的 数据 中 洞察 完 机 ， 作 出 更 好 决策 。 


确定 问题 


未 明确 确定 自己 的 问题 或 目标 就 进行 数据 分 析 就 如 同 未 定 下 目的 地 就 上 
路 旅行 一 样 。 

当然 ， 您 可 能 会 碰 到 一 些 有 意思 的 现象 ， 有 时 还 可 能 盼 着 能 兜 来 哲 去 地 
撞 上 点 好 东西 ， 但 是 ， 谁 会 说 你 将 有 所 发 现 ? 

见 过 长 达 百 万 页 、 图 表 不 计 其 数 的 分 析 报 告 吗 ? 


偶尔 ， 分 析 师 的 确 会 需要 几 百 张 纸 或 一 小 时 的 幻灯 片 来 曾 述 一 个 观点 ， 
但 如 此 一 来 ， 分 析 师 常常 不 够 注重 自己 要 解决 的 问题 ， 他 们 抛 给 别人 一 
些 信息 ， 借 此 推 外 上 自己 解决 问题 和 建议 决策 的 义务 。 


有 时 情况 更 粳 糕 : 问题 根本 没有 确定 下 来 ， 而 且 分 析 师 不 想 让 别人 意识 
到 他 只 是 在 数据 中 名 圈子 。 


没有 目的 地 的 旅程 


有 目的 地 的 旅程 


大 功 告 成 


玲 知 遵 你 什么 时 
候 二 能 况 到 头 啊 ? 


这 是 一 份 禁 揽 的 分析 报告 。 看 出 稳 仅 之 处 了 吗 ? 


你 如 何 确定 问题 ? 
客户 将 帮助 你 确定 问题 


客户 是 分 析 结 果 的 服务 对 象 。 你 的 客户 可 能 是 你 的 上 司 、 你 所 在 公司 的 
首席 执行 官 ， 或 甚至 殉 是 你 本 人 。 


客户 将 根据 你 的 分 析 作 决策 ， 你 需要 尽量 从 他 那里 多 了 解 一 些 信息 ， 才 
能 确定 问题 。 


本 文中 这 位 首席 执行 官 想 提高 销量 ， 但 这 只 是 最 初 答案 。 你 需要 更 多 更 
确切 地 摸 清 他 的 心思 ， 才 能 拟定 一 个 能 够 解决 问题 的 分 析 方 案 。 


要 是 你 能 想 出 提高 狐 洁 
起 强 你 温 需 销量 的 办 法 ， 
就 给 你 发 美金， 


这 位 就 是 首席 执行 官 ， 
你 是 在 给 这 家 伙 做 事 ， 


浆 的 碍 二 过 喧 : 了 洒 站 个 评 了 子 
ea 牢 当 了 知 或 小 蕊 了 子 习 

EE a 村 ; 说 东 什 于 突 林 
nF 当 了 秤 或 趟 了 了 季 当 ”a 守 黄 沪 栈 发生 三 -| 洲 


已 荣 习 和 闷 莹 日 村 


世上 没有 僵 问 题 

问 : 我 总 是 在 数据 里 狗 来 忽 去 。 您 是 说 我 得 先 在 脑子 里 有 些 特定 的 目 
标 ， 才 能 哪怕 只 是 过 一 眼 我 的 数据 ? 
答 :， 没 必要 先 在 脑子 里 形成 问题 才 去 浏览 数据 。 但 要 记 住 ， 仅 仅 过 一 眼 
并 个 是 数据 分 析 。 数据 分 析 总 的 来 说 就 是 认 清 问题 ， 以 及 继而 解决 问 
题 o 

问 :， 我 听 说 过 探索 性 数据 分 析 ， 就 是 从 数据 中 找 出 一 些 可 能 想 进 一 步 进 
行 评 估 的 点 子 。 这 种 数据 分 析 方 法 中 并 没有 什么 “问题 确定 步骤， 
管 : 确实 有 这 种 分 析 方法 。 在 探索 性 数据 分 析 中 ， 问 题 就 是 要 找到 一 些 
值得 进行 测试 的 假设 条 件 ， 这 完全 是 个 具体 问题 。 


问 : 很 好 。 给 我 多 讲 讲 对 自己 的 问题 不 其 了 解 的 客户 吧 。 那 种 人 也 需要 
数据 分 析 师 吗 ? 


管 : 当然 ! 


问 :” 听 起 来 似乎 那 种 人 更 需要 专业 帮助 。 


答 : 的确 如 此 ， 优 秀 的 数据 分 析 师 帮助 客户 思考 自己 的 问题 ; 他 们 不 会 
等 着 客户 告诉 他 们 该 做 什么 。 要 是 有 人 能 够 癌 客 户 指出 他 们 宫 无 察觉 的 
问题 ， 客 户 会 真心 诚意 地 感谢 此 人 。 


问 :， 听 起 来 挺 估 。 谁 想 多 搞 出 些 问题 ? 
管 : 聘用 数据 分 析 师 的 人 认为 ， 具 备 分 析 技 能 的 人 能 够 改善 他 们 的 业 
务 。 有 些 人 把 问题 视 为 机 会 ， 而 向 客户 指出 如 何 发 现 机 会 的 数据 分 析 师 
则 能 让 客户 赢得 苋 争 优势 。 
动 动笔 
总 体 问 题 是 我 们 需要 提高 销量 。 为 了 更 好 地 摸 清 这 位 首席 执行 官 的 
真正 意图 ， 你 想 问 这 位 首席 执行 官 什 么 问题 呢 ? 写 出 5 个 问题 。 
toe 
© 
©@ 
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Acme 公 司 首席 执行 官 给 了 你 一 些 反馈 


党 御 大 :Bame 什 妆 品 冯 司 首 搞 山行 宣 
亮 一 型 后 让 首席 执行 官 确 改作 大 5 Heae Fist 


过分 
or fe 
bh 


= ey ed | 
| > 和 5 司 复 ， 羡 十 朱红 
枫 涩 类 目 持 护 二 此 绰 间 ， | 主 早 复 : 暴 定 后 


\ 伐 逢 超 尖 必 报 高 名 :27 


Be 我 治 玻 让 销量 于 新 加 到 EE 标 忻 ， 郊 小 以 在 表 梅 忌 石 到 这 个 月 
2 标 值 ， 我 人 让 有 的 系 从 当中 持 照 这 个 弓 标 值 击 定 苑 ， 训 录 法 
开 不 齐 日 车 以 ， 我 攻 没 宏 有 用 妇 。 


不 食 过 间 “是 村 窜 ”， 引 你 的 | 你 祝 得 我 们 下 证 才能 水 到 呢 9 
名 漳 日 标 塌 确信 强 点 拱 到 重 亿 ， 
项 ， 想 砂 法 忠 党 的 事 。 不 过 第 到 示 要 让 束 光 的 人 素 亚 党 的 六 
品 ， 我 床 说 的 “人 录 丁 岁 出 头 的 少 去 消 缉 直 【11=15 央 1 
你 们 至 透 沁 车 这 样 那 江 的 产 而 天 行 市 坏 营 销 来 过 总 饰 量 ， 全 
\ | 录 才 撕 人 十， 站 起 杰 各! 


一 | 各 觉得 销量 拍 谨 各 少 是 可 行 掀 ? 生 标 箔 明 合 班 呈 ? 


这 频 必 女 治 策 宪 于 头 帘 多 一 一 做 怀 毁 的 上 钱 ， 贫 全 洽 物 沦 区 
款 


扼 见 准 产 苦 烛 站 ， 合 一 让 我 和 ， 通 这 向 和 妨 六 和 众 季 航 污 直 绽 党 党 霜 ， 销 灵 可 以 扶 押 雪 上 。 
个 关心 充 四 对手 内 情况 。 | 我们 的 过 争 江 玫 销 重启? 
ME ee 
| 我 没 夺 蕊 窜 的 效 字 ， 但 本 我 印象 中 全 人 打算 趟 过 按 们 :我 行 
泥 扩 加 物 仇 沁 因 总 站 六 可 这 我 们 高 FO 物 ~100%。 
| 广告 和 六 况 网 丫 若 销 依 征 是 入 么 巴 事 } 

对 和 集 嵌 数 据 刘 型 从 2 
寻 有 有 壤 1 癌 到 | | 税 正 在 营 斌 一 些 新 手 孔 总 这 算 未 第 一 个 月 收入 的 20 和 > 

Wh | 过 去 这 笔 衣 从 个 部 用 在 广告 上 上 ， 届 我 们 纲 在 会 分 上 一 些 用 
于 社交 区 站 上 。 例 是 广告 天 一 直 托 持 这 全 欢 壮 ， 我 具 码 息 起 安 
| 右 什么 污染 。 


把 问题 和 数据 分 解 为 更 小 的 组 块 


数据 分 析 的 下 一 步 束 是 把 从 客户 那里 了 解 到 的 问题 和 手头 的 数据 放 在 一 
起 ， 把 这 些 问题 分 解 为 颗粒 级 的 小 问题 ， 让 它们 在 分 析 时 发 挥 最 大 作 


将 大 问题 划分 为 小 问题 


2 你 面 对 的 问题 常 尝 舍 糊 不 
[ 


“我 们 最 虹 办 党 户 希 世 我 们 编 禹 们 什么 ? * 
“我 们 如 何 提 高 销量 ? "<meta ee ” 
“我 们 的 广告 做 得 怎么 粒 了 ? ” 


回答 中 问题 ， 和 解决 大 问题 


你 无 法 直接 回答 大 问题 。 但 是 ， 通 过 回答 从 大 问题 分 解 出 来 的 小 问题 ， 
你 惑 可 以 找到 大 问题 的 答案 。 


将 数据 分 解 为 更 小 的 组 块 


数据 的 处 理 也 是 如 此 。 人 们 无 意 告 诉 你 你 所 需要 的 精确 答案 的 量化 值 ， 
你 必须 目 己 提炼 重要 的 因子 。 


如 果 你 拿 到 的 是 汇总 情况 ， 就 像 Acme 给 你 的 那些 数据 ， 你 就 会 想 知 道 哪 
些 因 子 对 你 至 关 重 要 。 


如 果 你 拿 到 的 是 原始 数据 表 ， 你 就 会 想 对 这 


些 因 了 进行 汇总 ， 让 数据 更 有 川 。 本 


由 有 了 0 . 
些 时 肾 拘 行 话 ! 
9 月 | 10 月 12 月 1 月 2 月 
总 铺 重 s52F0000 | $5501000 55 4nn0nn | 55533000 | 55554900 
S 55958000 566217000 | ss5 476 M0 


s5280000 | $550nn0n £725 0 


单价 【每 盘 司 ] 


12 月 目标 销量 $5 968 000 这 些 可 能 就 是 你 
要 查看 哆 组 块 ， 


11 月 单价 $2.00 i 


让 我 们 给 分 解 工作 来 个 特写 .……. 
现在 再 来 看 看 了 解 到 的 情况 


让 我 们 从 数据 开始 。 你 手头 有 一 份 Acme 销 售 数据 汇总 ， 莹 试 分 解 最 重要 
因子 的 最 好 起 步 办 法 是 找 出 高 效 的 比较 因子 。 


找到 感 兴趣 的 比较 对 象 ， 分 解 汇总 数据 。 


上 人 舍 访 关 寺 
4 恒生 贡 总 销量 与 日 杯 畏 腹 况 财 血 党， A 
J 


rg 由 y 
1 同 


$5 280 900 
$5 7A0 oNMN 


$5 501 000 
555000nnn 


$5d69000 | $5 As 000 


2 月 
457793nn00 | 55565n05 DG 


S5 533 00) | S5 55400) 
s6217n000 | S6476009 
$316 80 $316 B80 


$739 200 9730 209 


$31056000 $5950400 $739200 
~ 
”人 | 社交 网 络 器 5 5105 500 5318 800 


$528 000 
$5528 D0C 


| 单价 「 馈 狂 可! $2.00 $2.00 52.0 91.97 $1.99 


天 
| 
壬 诈 六 隆 俐 芋 站 请 这 的 康 贱 一 用 二 


进行 有 效 的 比较 是 数据 分 析 的 核心 ， 本 书 通 篇 都 在 讲述 这 个 工作 。 


在 这 个 案例 中 ， 你 想 通过 比较 各 项 汇总 数据 在 脑子 里 形成 一 个 概念 ， 即 
Acme 公 司 的 貌 洁 超 强 保湿 霜 业 务 是 如 何 开展 的 。 


你 已 经 确定 了 问题 ， 想 出 提高 销量 的 办 法 。 但 通过 这 个 问题 几乎 无 法 知 
道别 人 对 你 的 工作 期 望 ， 于 是 你 从 首席 执行 官 那里 摘 到 了 大 量 有 用 的 言 


论 。 


这 些 言论 给 出 了 关于 如 何 开展 化 妆 品 业务 的 重要 基准 假设 。 和 希望 首席 执 
官 关 于 这 些 假设 的 看 法 是 正确 的 ， 因 为 它们 将 是 分 析 的 基础 ! 首席 执 
官 的 论点 里 最 重要 的 有 了 哪些 呢 ? 


ol 


TI 
忆 忻 xd 
让 A 心 中 章 ， 沪 十 门 风 
向 见 产 垩 起 误 才 
及 他 更 汪 本 灵 看 刀口 了 ER 本 
铺 这 个 才 标 阐 ， 针 用 采 汶 ha 中信 淹 次 日 
首 确 补 条 ， 因 香 远 不 结 上 后 区 门 淹 斌 有 六 红 ， 
去 是 一 此 姑 亲 要 六 人 入 样 二 牙 办 列 革 7 
相关 问题 世 ， 烛 水 却 星 税 的 上 书 。 丰 这 竺 入 是 票 业 宰 泛 可 人 人 基 
史 多 的 产品 ， 纺 所 让 革 十 完 出 水 懂 : t 
~ > 过 有 111 岁 ; : 欣 和 1 杰 酒 过 对 ~” 
让 仁 市 场 首 情 克 郑玄 结局 。、 作 号 又 榨 ,三 个 
: 
洪 作 看 证 至 过 总 LE 针 徙 录 全 于 
BE Ne 古怪 济 
二 屏 ， 允 世代 于 写生 修 ， 训 3 
奴 担 ， 劝 这 癌 噶 加 和 第 当 各 ， 久 枯 可 
ee > 失控 真 
A 区 们 乞 志 全 对 于 全 是 30 了 > 
多 从 入 放 三 坊 的 瑟 半 ， 全 市 弹 志 家 市 位 们 反攻 子 
* 二 多 科 我 均 交 中 科 的 不 玫 牙 吕 聊 入 下 化 发 们 襄 
1 的 入 。“ 179 各。 
4 广 与 和 汁 交 网 洛 入 2 加 笨 巡 怎 生 巨 太 人 
取证 入 笨 就 是 一 长 全 正 疗 党 证 一 些 革 手 和 县， 共同 等 让 字 一 六 捕 要 六 杀 
人 从 伦 寺 身 这 区 pet 村 去 ee 
失 烛 如 Wr Be 入 | 岂 必 二 全 交 交 洛 上 .， 联 是 个 处 策 一 支 各 持 记 个 
; 一 有 | 民有 不 戏 志 从 有 二 类 潮 基 ， 
寿 今 最 基 重 要 论 春 出 东 却 最 有 用 3? 天 ER 不 了 
, / 
po 


动 动笔 


根据 你 所 得 到 的 分 析 数 据 ， 总 结 一 下 客户 确信 无 疑 的 观点 以 及 你 的 
想法 。 分 析 以 上 邮件 和 你 的 数据 ， 将 它们 分 解 为 能 够 描述 你 的 现状 
的 更 小 的 组 块 。 


妆 户 注入 元 既 芍 虎 点 你 对 数 浊 缴 类 法 
0 
© 
© 
[4 
动 动笔 解答 
清点 一 下 你 和 客户 确信 无 疑 的 观点 。 你 发 现 了 什么 ? 


入 号 蚁 和 葵 景 可 能 
窜 匀 丧 汪 元 绎 的 劝 风 必 嵩 点 不 包 ， 
狼 沾 过 强 坏 各 油 购 训 业者 县 多 证 吾 芍 和 人 香 交 兴业 【 贞 位 遍 是 11-15 守 1】 蚁 科 基 兴工 第 坚 
一 欧 消 理 君 


eme 记 里 重 强 分配 广告 信和 科 委 网 陷 莫 ， 介 科 令 藻 赴 ， 这 个 斯 党 法 是 希 启 动 襄 认可 扼 。 


a aha edo BL ih he Koh OO 


Amw 的 竞争 对 手板 品 强 天， 


你 对 数据 的 想法 


稚 ?改作 的 销量 与 上 售 相 比 输 竣 上 休 ， 介 高 绩 乎 平 ， 
-一 六 汐 站 - 


© 销 呈 与 本 标 要 二 电 下 ， i 


办 附件 乔 未 元 助 于 销 章 过 竺 ， 
@ | 沽 总 用 艺 - 庆 优 表 史 Are 扩 销 重 达 村 角力 ， 


， 全 六 埃 地 生词 帧 委 闹 让 是 对 谴 对 狂 鉴 租 染 进 
您 巴 经 商 殷 池 和 办 地 本 时 、 F 
pn 电源 傅 提 序 姐 冰 、 玉 谷 间 总 评 法】 


评估 组 块 


A 。 你 知道 需要 想 办 法 ， 你 知道 哪些 数据 组 块 能 让 你 做 到 这 一 


上 态 。 现 在 ， 仔细、 专注 地 看 看 这 些 组 块 ， 形 成 自己 的 判断 。 
| 确定 | “ 庆 L wa | | 污渍 | 


正如 分 解 时 一 样 ， 评 估 分 解 组 块 的 关键 就 是 比较 。 
过 对 这 些 因子 进行 相互 比较 ， 你 看 出 了 什么 ? 


抽 息 同人 钻 因 副 ， 苞 冰 芒 详 


i | 
计 对 问题 的 疯 痊 阁 采 | 对 类 洋 共 认 站 蒜 
| 9 

锐 污 贬 蜡 深 浮 箱 间 消 绰 才 臣 浴 十 号 芒 伍 生 的 2 口 贷 的 消 昌 握 二 车 3 昌吉 的 诺 旦 相 共 

沪 交 消 当 者 | 只 体 足 11-15 岁 ，， 冲 八 攻 本 略 罗 二 升 ， 旭 尚 时 河 小 。 

上 总 唯一 的 :和 劳 嫩 科 。 i 

RE 锁 军 与 = 半 相 二 其 这。 
MAmE 正 在 滞 试 的 加 污 地 洲 帮 社交 网 络 巷 广 竺 


浊 ， 砷 施 字 为 上 ， 新 人知 云 匡 癌 声 荡 当 末 相知 契 米 降 售 天 坊 干 录 量 这 蒜 ， 


或 们 省 生产 转生 父 亦 消 束 革 水 中 的 稍 售 藻 矶 i 二 iy 
未 六 阳 的 。 让 于 恬 败 9, 人 由 会 影响 acma 的 销 孟 法 三 

台 刀 。 
上 cme 的 京 搜 者 甩 六 基 险 。 


起 办 一 下 ) 天 


你 几乎 拥有 所 有 合适 的 组 块 ， 唯 独 缺 少 重要 的 一 块 .…… 


分 析 从 你 介入 的 那 一 刻 开 始 


让 自己 介入 分 析 的 意思 是 作出 自己 的 明确 假设 ， 并 且 以 自己 的 信用 为 自 
己 的 结论 打赌 。 


无 论 你 正在 构建 复杂 的 模型 还 是 在 作 简 单 的 决策 ， 数 据 分 析 吕 是 你 的 一 
切 :， 你 的 信念 ， 你 的 判断 ， 你 的 信用 。 


们 轩 疮 窑 玄 才 让 简 息 注 总 
雹 自己 ， 澡 训 汶 更 二 沸 年 ， 
| 
‘EE 


事 大 人 入 


给 你 带 来 的 好 处 给 客户 带 来 的 好 处 

宁 尾 世间 介 在 数 后 中 发 坦 厂 必 ， 客户 柯 更 章平 伦 御 电 断 . 

守 将 带 锣 作出 访 到 区 结 秦 ， 害 广 朱 时 祥 公信 ;多 典 断 划 广 司 服 芒 有 
宇 愉 对 芽 作 庇 蝶 站 前 ， 


永和 不 A 


过 你 带 来 的 坏处 给 客户 带 来 的 坏处 
你 特 蕊 永 记 党 基准 所 入 扯 何 影响 你 化 苇 客 风 将 六 会 依 在 永 的 好 可 ， 因 为 妆 二 好 
准 - 贡生 [的 村 和 到 三 : 
你 洁 成 为 涉 芒 位 任 多 局 大 ! 穿 局 可 本 会 让 全 窜 现 的 外 党， 莱 变 闪闪 
流 咖 出 狂 ， 
人 


在 把 写 最 终 报 告 的 时 候 ， 一 定 要 提 到 你 自己 ， 这 样 客户 才 知 道 你 的 结论 
出 目 何 处 。 


提出 建议 


作为 数据 分 析 师 ， 你 的 工作 就 是 让 目 己 和 客户 仔细 研究 你 对 数据 的 评 
估 ， 洞 察 先 机 ， 从 而 有 能 力作 出 更 好 的 决策 。 


为 了 实现 这 个 目的 ， 你 必须 将 自己 的 设想 和 判断 以 合适 的 格式 整合 起 
来 ， 供 客户 挡 取 。 


也 就 是 说 ， 你 的 作品 要 能 简单 则 简单 ， 但 不 可 简单 过 头 ! 你 的 工作 是 确 
保 自己 的 意见 传达 到 位 ， 让 人 们 根据 你 的 意见 作出 正确 的 决策 。 


你 提交 给 客户 的 报告 要 以 得 到 客户 理解 、 鼓 励 客户 以 数据 为 基础 作出 明 
智 的 决策 为 重点 。 

动 动笔 

看 看 你 在 前 面 几 页 搜集 到 的 信息 。 


你 建议 Acme 如 何 提高 销量 ? 为 什么 ? 


Acme 化 妆 品 公司 
分 析 报 告 在 扳 知 中 守 下 去 亏 末 客户 


鹏 训 试 豆 个 示 许 揭示 攻 ， 


背景 


入 襄 党 超 其 保志 客 的 客户 旦 少女 消费 者 {玉林 臣 11-15 岁 )。 她 
here 们 苇 林 上 基 哈 一 的 客户 痢 。A&ceme 王 在 党 试 肯 务 填 干 柱 民 社交 f 
人 岗 结 的 :个 费 、 亿 深信 办 让 、 记 个 新 妆 册 是 碟 尚未 可 纪 , 节 、 7/ 
Ne 稚 们 益 十 产 上 所 在 少女 稍 费 音 中 的 放 亿 漆 放 巨大 Agmc 的 竟 务 
对 竹 极 为 芒 险 ， 


数据 解说 入 草草 的 如 形 鲜 
说 并 已 的 符 褒 ， 
析 上 大 洪 、 2 甩 侯 阶 销 显 与 上 年 ?月 从 法 2 
We 拍 比 赔 有 增长 。 化 测 册 持 一 J 
a i 人 2 
EE。 销量 上 与 月 标 相 去 起 注 ， 
鼎 谤 广告 虎 诈 站 论 会 影 天 
Acme 物 销 仿 达标 能 力 。 了 io 12 1 21t 
从 看 米 无 其 本 销量 达标:。 


至 议 
你 的 竺 座 可 
能 与 党 东 具 。 | 请 展 相 对 日 标 了 午 可 能 与 广告 费 相对 从 前 的 广告 费 下 胜 有 关 
Ys 这 有 况 分 的 汪 指 让 我 们 相 管 社 问 眠 党 逮 鞍 毕 妇 簿 科 所 点 取 简 
成 功 。 我 将 沧 广 告 兴 得 大 罗 整 刘 9 月 的 本 半 ， 看 看 少女 消 货 者 
是 产 太 反 上 ， 针 对 少女 消费 者 钥 广 告 是 让 总 销 竺 额 重新 达 于 
铀 售 目 标的 手段 ， 


首席 执行 官 会 怎么 想 呢 ? 


首席 执行 官 欣 赏 你 的 工作 


于 得 时， 疙 完全 币 说 服 了 ,总 立 刘 就 
下 订单 多 投 产 告 ， 郊 迫不及待 地 想 知 
通 和 结果 | 


你 的 报告 简 炼 、 专 业 、 直 截 了 当 
报告 说 清楚 了 首席 执行 官 的 需求 ， 甚 至 比 首席 执行 官 本 人 说 得 更 清楚 。 


你 审视 数据 ， 通 过 首席 执行 官 把 事情 和 弄 得 更 明日 ， 把 衣 席 执行 官 确信 的 
观点 和 你 目 己 对 数据 的 理解 相 比 较 ， 然 后 提出 决策 建议 。 


干 得 好 ! 
你 的 建议 将 给 Acme 的 业务 带 来 哪些 影响 ? 
Acme 的 销量 会 上 升 吗 ? 


表面 上 来 这 对 Acme 是 
可 能 就 不 会 有 淡 大 效果 。 


一 则 新 闻 


驶 洁 保 湿 霜 在 
少女 消费 者 市 
场 完 全 饱和 


名 我 殷 化 阔 品 行 灶 和 儿 区 分 
持 师 报告 ， 少 妇 消 费 者 保 
ee 经 完全 被 Acme 

公司 保湿 条 恋 貌 产品 “ 靳 
洁 下 楞 ， 据 《数据 邦 商 
务 时 报 》 记 可 ，95 双 的 录 
次 请 费 者 称 “非常 于 绽 ” 
柴 用 裔 洁 保 入 帘 ， 和 通常 好 
太 虎 次 以 上 ， 


当 我 撒 记 者 告诉 Azmw 首 席 


执行 育 这 个 调任 结 困 村 ， 
他 韭 澡 停 证 , “我们 承诺 以 


数据 都 商务 时 报 


带动 近 人 的 价格 苔 少女 消 
沉 改 荫 奢 华 的 保湿 体验 ”， 
他 说 ,“ 行 知 闹 沾 在 少女 消 
此 者 中 如 叶 走 红 我 银 商 从 ， 
市 童 以 司 贞 我 休 的 茹 据 分 
厅 部 门 告 诉 我 这 些 消 息 ， 
而 不 是 报社 。” 

ee 市 毛 上 的 实际 竞 

一 竞争 人物 妆 , 品 公 一 

es 这 了 记者 采 兴 “我 放 ] 
菇 本 上 已 经 括 出 了 少女 请 
费 者 市 场 。 我 们 雇 米 扰乱 
市 场 的 少 必 消费 者 受到 了 
朋友 们 的 瑚 笑 ， 因 为 据说 
使 用 子 廉价 ， 低 档 的 产 品 。 
名 党 紫光 太 强 了 ， 和 他 们 


表面 上 看 起 来 是 一 


篱 正面 概 


坟 


总 争 下 在 浪 改 营销 费用。 
天 诸 保 从 ， 给 脐 补 米 个 打 
让 他 人 的 代替 


击 ， 比 记 ， 
人 入 在 综 潜 里 被 违 到 


他 对 你 前 分 牺 
填 意 义 吗 7 


个 好 消息 ， 但 是 ， 如 末 市 场 已 经 饱和 |， 


再 多 投 广告 


章 闻 我 接 到 了 这 个 
电话 ， 起 取消 了 少女 说 烛 
者 市 场 广告 。 马上 和 输 狼 再 括 
一 个 有 用 的 方案 吧 ， 


很 难 想象 少女 消费 者 市 场 广告 会 有 效 。 要 是 绝 大 部 分 少女 消费 者 每 天 都 
用 钢 活 保 诅 霜 ， 而 且 用 两 次 以 上 ， 销 量 还 有 机 会 提高 吗 ? 


你 需要 寻找 别 的 机 会 提高 销量 ,但 首先 需要 搞 清 楚 你 的 分 析 有 何 差 池 。 
考 考 你 


你 在 分 析 过 程 中 得 到 了 一 些 错误 的 或 不 完整 的 信息 ， 使 你 对 上 述 有 关 少 
女 消费 者 的 情况 把 握 不 准 。 是 哪些 信息 不 完整 呢 ? 


首席 执行 官 确信 的 观点 让 你 误 入 上 和 途 


这 征 首 席 执行 官 嘴 里 的 貌 洁 销 售 情况 : 


首席 执行 官 确信 的 貌 千 销售 情况 


洁 址 党 保 浊 钨 的 洛 费 才 是 下 十 卫 荡 生 华 的 少女 消费 攻 【具体 况 是 
-43 风 】 - 姓 们 在 本 上 臣下 一 的 消费 丰 


上 PiB 让 闻 正 新 全 一 千 绵 相让 交 网 沙锅 : 汪 弯 邻 为 小 ， 这 个 鞍 办 澳 
基 否 战功 前 未 囊 知 - 


我 们 车 中 六 品读 少 率 漳 引 者 口 诡 宵 仿 洪 水 入 上 太岁 。 | 


Acme 反 谭盾 对 于 疏 为 在 险 ， ~ 一流 


看 看 这 些 确信 观点 与 数据 的 吻合 情况 ， 二 者 一 致 还 是 矛盾 ? 所 描述 的 内 
容 有 差别 吗 ? 


9 月 10 月 们 月 1z 月 1 月 2 月 


总 销 虽 55280000| 55501000 | $5465000| 55450000| $5533000 | 55552000 
目标 消 员 5355280000 | $5500000| $5725000 | S5058000| $5217000 | 56475000 


广告 娘 $1 956 O00 $050 .400 $738 200 $528 000 $315 300 $315 S00 
社 冯 网 站 内 | $0 $105 600 $316 3800 $328 000 $735 200 $739 200 


单价 【每 性 司 ) $2.00 51.00 


51.00 $1.90 


52.00 


部 据 设 有 体 项 少女 消费 者 市 场 的 任何 情况 ， 地 气 汇 
省 襄 诗 费 才 产 晤 的 虽 一 嫩江 用 而 日 省 训 记 旨 者 三 能 
DL me reat Ty 二 


> 阁 了 上 这 新 间 店 ， 你 避 庄 准 宣 新 训 
一 从业 观 总 ， 


载 们 又 加 型 了 站 点 | 


你 对 外 界 的 假设 和 你 确信 的 观 总 哆 是 你 的 心智 模型 


在 这 个 案例 中 ， 心 智 模型 融 来 了 问题 ， 如 条 新 闻 报 道 是 真实 的 ， 那 么 首 
席 执 行 冒 天 于 少女 消费 者 市 场 的 确信 观点 束 是 错误 的 ， 而 这 些 确 信 观 点 
正 是 你 用 来 解释 数据 的 模型 。 


现实 世 务 非常 复 本 ， 医 因此 我 们 用 心智 模型 来 理解 现实 。 你 的 大 脑 就 像 一 
个 工具 箱 ， 只 要 有 新 信息 进来 ， 大 脑 束 会 拿 出 一 个 工具 利用 这 个 新 信 


心智 模型 可 能 是 一 些 与 生 俱 来 的 先天 亭 赋 ， 也 可 能 是 后 天 学 会 的 理论 ， 
不 管 是 哪 种 情况 ， 都 会 大 大 影响 你 对 数据 的 解释 。 


你 的 大 了 腑 是 个 工具 箱 。 


心 戎 模型 就 是 其 中 网 入 种 工具 。 


只 要 有 新 信息 进来 ， 厌 腑 就 会 拿 
出 一 个 工具 利用 这 个 新 信息 ， 


未 是 说 讲 数据 分 析 吗 ? 怎么 
密 成 讲 思维 了 ? 是 示 是 该 叫 
数据 模型 ? 


心智 模型 有 时 助 益 恨 多 ， 有 时 带 来 麻烦 。 本 书 束 是 你 妥善 利用 心智 模型 
的 速成 班 。 


重 中 之 重 是 明确 心智 模型 ， 并 且 像 对 待 数据 -一样 严肃 认真 地 对 符 心智 本 
务必 尽量 明确 你 的 心智 模型 。 
统计 模型 取决 于 心智 模型 


心智 模型 决定 你 的 观察 结果 ， 定 你 观察 现实 的 核 镜 。 


你 的 避 痢 梯 列 愉 似 观 
察 砚 实 世界 的 核 锁 . 


澧 


你 无 法 看 到 一 切 ， 因 此 你 的 大 脑 必须 做 出 选择 ， 以 便 集 中 注意 力 ， 这 就 


是 所 谓 的 心智 模型 大 大 决定 观察 结果 。 


牺 心 着 禄 型 人 让 竹 这 部 亚 ' 表 一 种 心 若 裕 型 和 让 你 学 
处 界 竟 -- 竺 特点 ………- 4 -比特 点 
SS pS > 全 
是 oh 、 
a 坟 漠 一 


如 采 你 了 解 自己 的 心智 模型 ， 那 么 你 发 现 重点 、 开 发 最 相关 最 有 用 统计 
模型 的 可 能 性 殉 更 大 。 


你 的 统计 模型 取决 于 你 的 心智 模型 ， 如 果 用 了 错误 的 心智 模型 ， 分 析 就 
会 胎 死 腹 中 。 


最 好 使 用 正确 的 心智 模型 ! 
动 动笔 


让 我 们 再 次 审视 这 些 数 据 ， 想 一 想 ， 有 没有 其 他 的 心智 模型 适合 
些 数据 。 


和 月 10 月 11 月 12 月 1 月 2 月 


总 放量 $5 280 000 $5 301 CO0 $3 69 00 S5480000 $3533000 $5 554 O00 
$5280000| $5500G00 $5729000| 535368000 217 $5 475 000 
$1 D5 DON 5350 4110 $249 20U $528 OUO S315 BI0 

5739 200 
单价 | 每 最 司 1 SZ00 $2,00 32.00 $1.90 51.20 $1.90 


列 出 一 些 假设 情况 ， 寿 貌 洁 保湿 害 的 确 是 少女 消费 者 言 爱 的 润 
肤 品 ， 则 假设 成 立 。 


盐田 八 询 便 进 为 ! 


~ 


列 出 一 些 假设 情况 ， 若 狐 洁 保湿 霜 处 于 在 竞争 中 失去 顾客 的 危 
险 境地 ， 则 假设 成 立 。 


动 动笔 解答 


i 。 不同 的 心智 模型 该 如 何 与 之 契合 
呢 ? 


9 月 10 月 11 月 12z 月 1 骨 2 月 
总 销 昌 $5 28C G00 $3 501000 $5 460 500 $5 480000 $5 533 000 $5 554 0CO 
目标 商量 35 28C G00 33 500 000 $3 729 C00 $5 90086000 $6217 000 504720C8 


广告 毁 $1 OSE C00 550400 $730 200 S528 000 5316 800 $5315 8C0 
社交 网 站 毁 50 $103 30 $316800 | S528 000 S735 200 ?733 200 


单 蛋 ' 查 凌 司 ) $2.00 2.00 S200 1.20 $ 130 $150 
列 出 一 些 假 设 情况 : 若 貌 洁 保湿 霜 的 确 是 少女 消费 者 喜爱 的 泣 
肤 品 ， 则 假设 成 立 。 

史 直 消费 者 史 芝 把 所 过 你 温 柑 预算 都 给 了 狐 读 。 soemesesses erememese ses ena emme ae se se ae 
pe | 

汉 旦 东 。 狗 信保 温 给 没有 区 敌 的 竟 李 对 手 。 窑 是 这 车 目 李 虹 区 产品 

et Ce 

\ 社 妆 隐 络 证 引 兹 入 雪 产品 代 公 请 站 坡 册 方 匠 ， 
消 业 消 生 者 六 和 站 信 涵 物 上 党 更 多 的 回 ， 


列 出 一 些 假 设 情况 : 知 狐 洁 保 湿 霜 处 于 在 竞争 中 失去 顾客 的 危 
险 境 地 ， 则 假设 成 立 。 
岁 区 消费 靖 改 用 新 的 保温 痪 产品 -Aiore 需 要 寺 辐 失地， 
7 可 洁 保 浊 闹 币 认为 “处 总 陪 ”， 是“ 给 做 了 由 的 
a 社 冯 刚 给 管 久 是 人 光良 泣 ， 帮 们 党 要 党报 广 千 疯 怀 扫 ， 


人、 密 卢 报 哄 完全 御 绎 胎 心 蝉 搬 弄 入 孙 潭 奇 ， 各 结 心 怕 烧 
型 中 哮 可 能 谅 童 当 蚂 部 分 村 实 中 是 曙 常 信 良 …… 


ee 5 人 
二 时 呈 信 


心智 模型 应 当 包括 你 不 了 解 的 因素 


一 定 要 指出 不 确定 因素 ， 只 要 能 明确 不 确定 因素 ， 你 就 会 小 心 防 范 并 想 
办 法 下 补 知识 空白 ， 继 而 提出 更 好 的 建议 。 


考虑 不 确定 因素 及 言 点 会 让 人 感觉 不 磷 ， 但 回报 显著 。 这 种 *“ 反 查 " 方 法 
会 揭示 出 未 知 信息 ， 而 不 是 已 知 信息 ， 例 如 ， 你 要 雇用 一 个 舞蹈 家 ， 他 
不 会 跳 的 舞 可 能 比 会 跳 的 舞 更 让 你 感 兴趣 。 


Head First 反 查 表 


我 所 没有 的 经 历 ， 
波 少 
世 路 龙 昨 
驶 让 行 千 


<“ 


逢 “二 
我 不 知道 的 事情 ， 
加 肝素 前 50 位 党 


我 今 大 用 手册 村 了 光 清 分钟 虑 话 
生 辣 的 邱 芝 


大公 标 作 位 在 启 用 职 况 员 
后 二 发 规 他 们 有 坚 事 我 不 知道 该 怎么 做 的 事情 ， 
伺 不 来 ， 可 蕊 肝 总 朴 ,， 伐 蒜 式 面 刘 

吨 愉 怡 宏 一 

昌吉 全 

我 没 读 过 的 书 : 
《 红 柑 梦 》 
性 刻 寺 罕 恢 坷 记 


数据 分 析 也 十 如 此 ， 了 解 目 己 的 知识 缺陷 非常 重要 。 

未 雨 绸 缪 方 能 防备 不 测 风 云 。 

动 动笔 

为 了 搞 清 楚 首 席 执行 官 不 知道 的 事情 ， 你 会 问 哪些 问题 ? 


首席 执行 官 承认 自己 有 所 不 知 


恢 社 人 -Acrne 沙 交口 公司 首 记 全 苑 宇 


! 放 件 和 人，Head First 


i 题 ; 。 回 科 ”党 坛 不 确 室 亚 索 
头 寺 获 沾 保 温 埠 疝 镍 车 必 况 ， 你 党 抒 自 己 在 哇 广 页 最 被 筷 了 角 ? 让 窗户 并 类 下 


康 ， 这 总 个 洁 意 思 供 问 是 ， 我 总 尽 沉 符 匠 们 真 庆 了 如 客 户 对 

产品 为 感受 ， 伍 币 于 或 习 并 没有 直接 把 产品 买 仅 汇 落 涯 ， 世 / 
以 ， 首 拦 产 场 发 奴 既 销 襄 后 ， 我 位 确 实 不 知 说 滚 下 米 鸡 明江 ec 
奈 以 ， 产 馆 ， 我 全 区 实 不 知道 鞠 洁 保 深 窟 出 亩 后 的 篆 况 。 


关于 广告 窜 站 高 色 量 鸭 页 献 ， 你 有 汰 少 伍 心 ? 


或 ， 止 如 太 寒 - 应 所 说 , 一 半 有 注 ， 一半 泌 用 ， 且 水 还 也 
不 是 溢 哪 一 兰 示 下 一 个- 仁 术 明 品 ， 如 洁 灵 坦 十 汇总 者 让 藉 
是 多 的 产 足 ， 四 为 齐 活 马 其 作 候 湿 宇 产 品 并 无 太 大 区 别 ， 捷 ws a 


以 广告 是 打响 品 粒 的 关键。 


除了 少女 消 右 者 ， 迹 五 激 可 能 会 来 这 瞩 产 品 ? 


这 息 可 关 知 道 ， 毫 元 线索 ， 因 为 袜 中 全 吉明 了 ， 我 们 只 考虑 了 < re 
少女 常 弗 澳 ， 我 们 泊 不 指 二 蔷 地 浅 汝 了 群 体 。 \ 


! | 


有 深 丰 孔 启 天 道 物 其 他 难以 排 牌 共 不 确定 当 训 " 


当然 有 ， 汪 不 少 也 。 你 是 现 我 了 ， 我 了 也 不 名 往 自 己 杷 疗 志 了 


| 志 酉 党 了， 你 约 纵 据 分 析 广 我 觉得 芭 戏 产 册 此 知 其 少 。 


还 有 谁 可 能 买 魏 洁 保 温 箱 ? 
除了 少女 消费 者 ， 有 其 他 买 家 吗 ? 
世上 没有 俄 问 题 


问 : 首席 执行 官 最 后 一 句 话 挺 搞笑 : 数据 分 析 让 人 感觉 自己 所 知 甚 少 ， 
这 话 不 对 吧 ? 


管 : 这 要 看 你 怎么 对 待 。 如 今 越 来 越 多 的 问题 能 够 通过 数据 分 析 技 术 解 
决 ， 而 在 过 去 ， 人 们 要 靠 直 觉 来 解决 这 些 问题 。 


问 :所 以 和 以 前 相 比 ， 心 智 模型 越 来 越 不 可 信 了 ? 

答 : 许多 由 心智 模型 完成 的 工作 都 是 为 了 帮助 你 填补 信息 空白 。 好 的 一 
面 是， 数据 分 析 工 具 让 你 有 能 力 以 系统 而 自信 的 方式 填补 这 些 空白 ， 因 
此 , “指定 大 量 不 确定 因素 ”这 一 做 法 的 目的 就 是 帮助 你 发 现 盲点 ， 这 要 
求 拥有 过 硬 的 数据 工作 经 验 。 

间 : ”但 我 非得 用 心智 模型 来 填补 “对 外 界 的 了 解 ”* 这 项 知识 的 空白 吗 ? 
管 : 确实 如 此 .…… 


问 :， 我 这 么 说 是 因为 ， 即 使 我 目前 对 外 界 的 运行 规律 了 如 指 掌 ， 但 十 分 
钟 后 外 界 殉 会 变 成 另外 一 个 样 于 。 

答 : 对 极 了 。 你 无 法 无 所 不 知 ， 世 界 总 是 在 不 断 变化 ， 这 就 是 严谨 地 指 
定 问题 并 管理 心智 模型 不 确定 因 系 之 所 以 成 为 工作 重点 的 原因 。 你 只 
那么 些 时 间 、 那 么 些 资源 来 解决 分 析 问 题 ， 因 此 ， 回 答 上 述 问 题 将 有 助 
你 有 效率 、 有 效果 地 完成 工作 。 

问 : 通过 统计 模型 了 解 到 的 信息 能 为 心智 模型 所 用 吗 ? 

管 : 当然 能 。 今 天 的 研究 所 发 现 的 事实 和 现象 往往 成 为 明天 的 研究 的 假 
设 情况 。 这 样 想 ， 你 不 可 避免 地 会 从 统计 模型 得 出 错误 结论 ， 人 无 完 人 
嘛 。 当 这 些 结论 成 为 心智 模型 的 一 部 分 后 ， 你 布 望 它们 突显 出 来 ， 这 样 
才能 认 明 情况 ， 以 便 在 需要 时 回头 改变 这 种 绪论。 

问 : 所 以 心智 模型 可 以 通过 经 验 进行 试验 ? 


答 : 对 ， 而 且 应 该 进行 试验 。 你 无 法 试验 每 一 件 事 ， 但 可 以 试验 模型 中 
的 每 一 作 寺 5 


间 : ”如何 改变 心智 模型 ? 


答 : 你 即将 了 解 .…… 


首席 执行 官 下 令 搞 来 了 更 多 数据 ， 帮 助 你 寻找 少女 消费 者 以 外 的 
市 场 。 让 我 们 看 一 看 。 
Acme 给 你 发 来 了 一 长 串 原 始 数据 


所 获得 的 新 数据 若 未 经 过 任何 处 理 ， 即 称 为 原始 数据 ， 为 了 让 他 人 提供 
的 数据 在 你 要 进行 的 数据 运算 中 发 挥 作用 ， 几 乎 总 是 要 调节 数据 。 


千 万 要 保存 原始 数据 ， 避 人 免 进 行 任何 数据 处 理 。 即 使 是 最 好 的 数据 分 析 
师 也 会 失误 ， 必 须 能 够 将 目 己 的 工作 结 采 与 原始 数据 进行 比较 。 


能 用 不了 这 人 么 多 。 


yt Pe 
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数据 太太 太 多 了 | 
我 该 怎么 办? 该 从 
串 几 和 开关? 


放 轻 松 
数据 多 往往 是 好 现象 
在 密集 的 数据 中 忽 圈 子 很 容易 让 人 “迷路 "， 要 是 你 迷失 了 目标 ， 起 


记 了 假设 ， 只 要 集中 注意 力 完成 该 完成 的 数据 处 理 束 能 扭转 局 势 ， 
优秀 的 数据 分 析 的 根本 在 于 密切 关注 需要 了 解 的 数据 。 


| 
ye 
— 


练习 


好 好 看 看 这 些 数 据 ， 想 一 想 首 席 执行 官 的 心智 模型 。 这 些 数据 符合 
所 有 顾客 都 是 少女 消费 者 的 想法 吗 ? 还 是 看 得 出 有 其 他 的 消费 者 ? 


| | 
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name | | :| 37 101| 
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AM 习 解 答 


从 数据 中 看 出 什么 了 ? 首席 执行 官 “ 只 有 豆 苞 年 华 的 少女 消费 者 才 买 
貌 洁 保湿 霜 ” 的 想法 对 吗 ? 还 是 看 得 出 有 其 他 的 消费 者 ? 


2508] 
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6] 以 肯定 二 上 Acme 将 产品 卖 给 各 家 公司 “这些 公 司 再 将 产品 去 


站 


给 年 轻 的 消费 者 。 时 蛮 妆 品 公司 和 巾 忆 公 主 作 瑟 替 守 友 


深入 挖掘 数据 


We” ， 但 任务 很 明确 : 找 出 除 少女 消费 者 以 外 购买 产品 的 群 


你 发 现 了 一 家 名 叫 泛 美 批发 公司 的 公司 ， 它 是 谁 ? 谁 买 它 的 产品 ? 


Acme 


野蛮 女友 化 妆 


品 公司 


少女 消费 者 
pp, 


多 在 将 头 上 加 标 
过 未 ， 这 办 法 不 锚 ! 


练习 


泛 美 批发 公司 应 Acme 的 要 求 发 来 了 这 份 貌 洁 客 户 明细 表 。 这 些 信 息 
能 帮助 你 弄 清楚 谁 在 购买 产品 吗 ? 


泛 美 批发 公司 貌 洁 保 温 霜 半年 销售 明细 (至 2009 年 2 月 


< 


二 关公 
03 


四 犊 子 剃 须 品 公司 8 093 
一 


号 下 从 这 些 数据 中 看 出 的 
购买 狐 洁 保湿 芷 的 消费 省 


We 


和 


和 


nem 


son 


I 


boa 本 解答 
泛 美 批发 公司 的 销售 明细 告诉 你 是 谁 在 购买 貌 洁 保 湿 霜 了 吗 ? 


泛 美 批发 公司 舰 洁 保 湿 霜 半年 销售 明细 (至 2009 年 2 月 


Se 


人 
威 竹 胡 须 保 养 公司 
四 转子 剃 须 品 公司 


ee 


泛 美 批发 公司 确认 了 你 的 印象 


是 ， 者 其 们 冲 演 过 让 圳 ， 吕 说 用 小 目 叭 虹 
东 赴 社 他 向 消 点 礁 品 丑 ， 信 用 未 做 制 频 语 
你 乔 棱 极 了 . 


这 伙 怕 是 大 买卖 。 
看 来 ， 有 一 个 群体 在 飞狐 洁 保湿 割 ， 而 Acme 苋 还 没有 意识 到 。 
一 切 顺 利 的话 ， 束 靠 这 个 潜在 群体 提高 Acme 的 销量 了 。 


发 第 迷 公 了 ， 这 条 惟 计 可 能 让 我 们 的 业务 求 个 天 困 
地 莫 罗 灾 仙 ， 能 让 我 过 一 涡 你 很 出 入 个 结论 网 过 和 
吗 ? 息 们 访 息 么 利用 这 个 新 信息 缉 ? 


你 已 经 进入 分 析 冲 刺 阶段 。 


现在 该 写 报告 了 。 记 住 ， 让 客户 详细 地 浏览 你 的 思考 过 程 
得 出 这 个 看 法 的 ? 


En 


你 是 如 何 


动 动笔 
心智 模型 有 哪些 改变 ? 

有 何 证 据 证 明 你 的 结论 ? 

有 难以 排解 的 不 确定 因素 吗 ? 


动 动笔 解答 
你 如 何 扼 要 复述 你 的 工作 ? 你 对 首席 执行 官 提出 了 哪些 建议 以 期 提 


高 销量 ? 


世上 没有 僚 问 题 
问 : 如果 为 了 解决 问题 而 需要 获得 更 详细 的 信息 ， 我 该 做 到 什么 程度 
呢 ? 是 不 是 要 亲 目 去 采访 客户 ? 


管 : 对 新 数据 的 挖掘 深 度 最 终 取决 于 你 自己 的 最 佳 判断 ， 在 这 个 例子 
中 ， 你 不 断 摸 索 ， 终 于 找到 了 新 的 市 场 领域 ， 这 个 发 现 足以 让 你 制定 有 
人 。 我 们 将 在 后 续 章 世 中 进一步 讨论 何 时 该 停止 搜集 数 


问 : 看 来 ， 起 初 的 错误 心智 模型 是 第 一 次 分 析 失 败 的 罪魁 祸首 。 


管 : 是 啊 ， 最 初 的 错误 假设 注定 了 分 析 会 得 出 错误 的 答案 ， 因 此 ， 从 一 
开始 束 务 必要 基于 正确 的 假设 建立 模型 显得 如 此 重要 ， 并 且 ， 要 做 好 准 
备 ， 一 旦 所 得 到 的 数据 有 违 你 的 假设 ， 就 要 立即 回头 重新 详 加 思考 。 


问 : 分析 会 有 大 结局 吗 ? 我 所 追求 的 是 定论 。 


答 :， 数 据 分 析 肯 定 会 得 出 重大 问题 的 答案 ， 但 绝 不 会 料 事 如 神 ， 即 使 你 
今天 无 所 不 知 ， 明 天 又 会 有 新 情况 。 癌 年 长 男子 促销 的 建议 可 能 在 今天 
是 有 效 的 ， 但 Acme 永 远 需 要 分 析 师 为 他 们 出 点 子 抓 销 售 。 

问 :” 听 起 来 挺 没 劲 。 


管 : 恰好 相反 ! 分 析 师 好 比 侦探 ， 总 有 一 些 秘密 等 着 他 们 去 发 现 ， 这 正 
征 数 据 分 析 的 乐趣 所 在 ! 回顾 问题 、 提 炼 模型 、 基 于 新 模型 观察 外 界 ， 
这 些 都 是 分 析 师 工作 的 基本 组 成 部 分 ， 并 非特 例 ， 而 是 规律 。 


回顾 你 的 工作 


下 面 最 后 看 一 眼 你 所 经 历 的 所 有 步 又， 目的 是 得 出 如 何 帮助 Acme 提 高 狐 
洁 保 湿 霜 销量 的 结论 。 


钱 
外 有 动 了 情 甘 中 
和 洪 7 拘 害 对 
训 币 官 抽 油 站 5 划 中 蚁 省 # \ 
电站 各 所 
N SS 


上 -3 有 夺 : 才 市场 
本 第 你 欧 。 jr pi pe 


啊 ， 我 卖 出 去 了 。 让 我 
们 追随 老头 们 前 进 吧 I 


你 的 分 析 让 客户 做 出 了 英明 的 决策 


看 了 你 的 报告 后 ， 首 席 执行 官 迅即 调动 营销 团队 创建 < 须 洁 "品牌 
非 就 是 “ 狐 洁 "保温 霜 换个 新 名 字 罢 了 。 


Acme 旋 风 般 地 把 须 洁 保 湿 霜 推 癌 老年 男子 市 场 ， 下 面 征 结 


天 


月 份 


销量 一 飞 冲 天 ! 两 个 月 的 销量 超过 了 你 在 文章 开头 看 到 的 所 有 目标 销 
量 。 


你 的 分 析出 成 果 了 ! 


检验 你 的 理论 


大 家 老 是 说 ，“ 凑 儿 L， 整 天 放风 第 
(是 党 不 到 什么 东西 的 ，” 但 我 有 蔬 
RN 家， 我 将 会 证 明 他 们 爹 错 了 :+ 


你 能 向 别人 揭示 目 己 坚信 的 信念 吗 ? 


正在 进行 实证 检验 ? 做 个 好 实验 吧 ， 再 没有 什么 办 法 能 像 一 个 好 实验 那 
样 ， 既 能 解决 问题 又 能 揭示 事物 的 真正 运行 规律 。 一 个 好 实验 往往 能 让 
你 摆脱 对 观察 数据 的 无 限 依赖 ， 能 帮助 你 理 清 因果 联系 ， 可 靠 的 实证 数 
据 将 让 你 的 分 析 判 断 更 有 说 服 力 。 


咖啡 业 的 寒冬 到 了 ! 
时 局 艰难 ， 连 星 巴 仕 咖啡 店 也 在 经 历 剧 痛 ， 那 可 一 向 是 享受 极品 咖啡 的 


下 
滑 。 


销 重 在 下 消 ， 我 们 需要 制定 一 
个 方案 懒 复元 气 ， 得 麻 你 搞 个 
方案 雪 给 董事 会 。 


星 巴 仁 钦 啡 疙 
苗 磺 执行 官 


星 巴 仕 首 席 执行 官 打 电 话 把 你 叫 来 ， 让 你 帮忙 想 办 法 恢复 销量 。 


星 巴 仕 董事 会 将 在 三 个 月 内 召开 
要 在 三 个 月 内 拿 出 一 个 扭转 乾坤 的 方案 ， 时 间 已 不 多 ， 但 必须 如 此 。 


我 们 不 完全 知道 销量 为 何 下 降 ， 但 必定 与 经 济 环境 有 某 种 关系 。 无 论 如 
何 ， 你 得 想 出 恢复 销量 的 办 法 。 


该 从 哪儿 着 手 呢 ? 


发 任 大 : 旺 巴 外 首 弟 执行 官 
丰 性 大 :Head First 
主题 ， ”转发 ， 莹 韦 大 会 即将 吾 开 


者 全 了 风 ?1? 


发 付 人 ， 导 巴 仕 蔡 守 会 主席 
收 作 人 ;， 首 启 址 条 官 
主题 ， “董事 大 会 即将 各 升 


益 囊 会 希望 在 下 -- 次 共事 大 会 上 看 天 束 套 型 法 
销售 闫 况 的 方案 。 


杂 录 你 人 棉 回 铺 所 的 划 不 够 司 全， 我 们 特 被 所 
性 呀 | ee 


要 行 我 们 的 方案 ， 首 所 就 症 换 淖 这 有 训导 


射 济 。 


动 动笔 
请 看 以 下 选项 。 你 认为 哪些 做 法 会 是 最 好 的 起 点 ? 为 什么 ? 


会 见 首 虚拟 行 只 ， 才 湘 铝 三 忆 会见 草 己 长 : 
二 如 营 


让 行 -- 寂 户 加 柚 ， 大 洁 革 襄 站 二 i - 
ht 瑟 佬 由 啡 。 


六 洁 炮 习 A 从 公 是 入 计算 出 
来 的 。 


动 动笔 解答 
a 想 出 提高 星 巴 仕 咖 啡 销量 的 办 法 ， 你 认为 哪 种 做 法 是 最 好 的 起 


4 ? 


兴修 


会 见 首席 执行 官 ， 弄 清楚 星 巴 仕 在 如 何 进 行商 务 运 草 。 


肯定 是 个 好 起 点 。 他 在 生意 上 足智多谋 。 


进行 一 次 客户 调查 ， 弄 清楚 客户 的 想法 。 


弄 清 楚 目 标 销量 是 怎么 计算 出 来 的 。 


给 目 己 泡 一 大 杯 热气 腾腾 的 星 巴 仕 咖 啡 。 
士 别 啡 味道 极 棒 ，， 人 不 来 一 杯 ? 


市 场 部 每 个 月 做 一 次 客户 调查 。 


他 们 随机 抽取 一 些 典 型 的 咖啡 消费 者 作 
为 样本 ， 问 消费 者 一 堆 相 关 的 问题 ， 觉 得 咖 
啡 怎么 样 啊 ， 类 咖啡 有 哪些 经 验 啊 …… 


随机 …… 记 


信 这 个 词 ! 


人 们 在 调查 中 的 说 法 不 一 定 符合 他 们 的 实际 做 法 ， 但 问 问 他 人 的 感受 总 
“会 有 坏处 。 


我 猴 赏 客户 调查 这 个 点 
子 。 看 看 我 们 网 客户 调 
查 ， 把 结果 上 告诉 我 . 


星 巴 仕 调查 表 
这 就 是 市 场 调查 表 ， 市 场 部 每 月 对 大 量 客户 进行 抽样 调查 。 


几 果 你 是 时 巴 仁 护 密 产 . 


息 可 能 咳 信安 递 扒 公 


呈 巴 仁 调 查 麦 


小 谢 密 城 写 羡 巴 什 订 在 夫 ! 号 完 泊 ， 我 们 的 客 广 经 对 将 痕 乐 间 为 尖 呈 上 一 
份 价 慎 10 美 元 的 礼 和 ， 您 可 以 在 任何 一 家 星 蔬 引申 哇 店 训 历 。 右 诸 党 站 
讶 中 巴 社 ! 


日 其 
星 马 休 身 吐 记 编号 四 

从 1 到 5 中 图 出 枉 种 说 法 给 你 的 鸡 党 1 去 示 完 全 不 同意 ，5 表示 完全 同意 
* 振 巴 什 待 啡 占 的 选 址 对 我 很 方 德 .“ 
1 2 


2009 御 1 月 


DSSrS 


“ 钳 上 来 的 肥大 总 是 准 热 台 还 。“ 
1 


2 


* 基 巴 计 员 工 形 影 有 礼 ， 狐 天 上当 扰 忆 :“ 


2 


* 我 认为 星 已 仕 硬 哇 间 常 垢 。” 
> 


一 党 | * 星 瓦 让 向 哇 语 是 我 独 概 的 天 处 : 


人 得 分 高 四 示 对 法 遇 说 小 厅 沉 外 同 . 
这 位 颜 守 将 殉 非常 杰 演 间 巴 仁 


你 会 怎样 汇总 这 份 调查 数据 ? 
务必 使 用 比较 法 


统计 与 分 析 最 基本 的 原理 之 一 就 是 比较 法 ， 它 指出 ， 数 据 只 有 通读 
比较 才 会 有 意义 。 LE 较 法 ， 已 指出 ， 数据 只 有 通过 相互 


在 这 个 案例 中 ， 市 场 部 计算 出 每 个 问题 
的 平均 等 案 ， 然 后 逐 月 对 这 些 平均 俏 进 行 比 统计 只 有 总 亲人 各 


较 ， 每 个 咱 的 平均 值 只 有 在 与 其 他 用 份 的 平 。 计 相 关联 ， 可 梨 名 
均值 进行 比较 时 才 有 用 。 人 带 来 启发 。 


这 是 一 份 2008 年 下 半年 市 场 调查 汇总 表 ， 表 中 数字 是 各 家 分 店 参加 调查 
的 人 对 各 个 调查 项 给 出 的 平均 分 。 


Co 


LETTT 


有 和 
KI A FN 
TAN 王 


08 答 3 有 | gs 在 9 | Qs 年 加 妥 | 08 年 民有 时 | 年 二 月 | 吗 华 1 
选 淖 方 鲁 | 4.7 | 456| 42 | 48| 42 
姬 年 说 虚 4.9 4.9 4 < 了 4.3 2 

一 : £ 
凤 工 执 济 3 4.1 了 3S 4.8 泗 志 问 蚌 
则 哇 价 第 1 ‘9 10 4,] 关 计 平 雯 
A | 
侣 这 上 友 处 3 4 3 .3 49 总 - 表 特 时 
蕉 如 山寺 牛 ! 这 iol| “90f 可 0] on 
得 和 + 贞 用 
小 心 ! 


必须 进行 明确 的 比较 。 


如 果 一 份 统计 数据 看 起 来 鼎 有 意思 ， 或 看 起 来 有 用 ， 你 束 需 要 针对 
i 其 他 统计 数据 的 比较 情况 ， 解 释 为 什么 会 有 这 种 作 


如 条 不 搞 清 条 这 一 点 ， 吏 等 于 是 在 假设 客户 会 目 己 进行 这 种 比较 ， 
这 会 是 一 个 不 合格 的 分 析 。 


比较 是 破解 观察 数据 的 法 宝 


0 分 析 结 果 越 正确 ， 对 于 观察 研究 尤其 如 此 ， 星 巴 仕 研究 就 是 
-一例 | 。 


通过 观察 数据 ， 你 仅仅 是 在 观 客人 
们 ， 并 让 大 们 上 自己 诀 定 所 属 的 群体 。 搜 
集 观 察 数 据 往 往 是 通过 实验 取得 更 有 用 
数据 的 第 一 步 。 


人 群 可 能 分 为 好 由 类 : 大 
客户 、 茶 容 等 。 


铅 在 实验 中 ， 则 由 你 决定 史 
全 人 于 只 办 


观察 研究 法 ”被 研究 的 人 自行 决定 
自己 属于 哪个 群体 的 一 种 研究 方法 . 


 ” 刘 


练习 
查看 对 开 页 上 的 调查 数据 ， 比 较 几 个 月 内 的 平均 值 。 
注意 到 某 种 规律 了 吗 ? 


有 什么 信息 能 说 明 销 量 下 降 的 原因 吗 ? 


练习 解答 
现在 你 已 经 细 细 看 过 数据 ， 可 以 找 出 数据 强 含 的 规律 了 。 
注意 到 某 种 规律 了 吗 ? 


价值 感 是 导致 销售 收入 下 滑 的 原因 吗 ? 


纵 观 这 些 数据 ， 除 了 星 巴 仕 咖啡 价值 感 这 个 变量 ， 星 巴 仕 的 顾客 对 其 他 
方面 都 感觉 民 好 。 


看 起 来 ， 星 巴 仕 没 有 给 人 们 物 超 所 值 的 感觉 ， 这 可 能 是 导致 购买 量 下 降 
的 原因 。 也 许 经 济 环境 让 人 们 钱包 变 总 了 ， 于 是 他 们 对 价格 更 为 敏感 。 


让 我 们 把 这 个 理论 称 为 “价值 问题 ”。 


星 巴 仕 咖啡 


这 是 2008 年 下 半年 市 场 调查 汇总 表 。 表 中 数字 是 在 各 家 分 店 参加 调查 的 
人 对 各 个 调查 项 给 出 的 平均 分 。 


8 年 1 天 | 中 生出 


选 址 方 估 4. | 4.2 
机 让 湿度 4.9 a&.7 4.9 
册 工 热情 y 3,5 下 站 
> 嘿 啡 价值 3.5 30 2.1 
i 信 受 云 处 4 之 .了 ] .0 
形 
Le 
证 并 个 月 中 和 相 
当 平 稳 地 下 阵 ， 
你 认为 感知 价值 的 下 降 是 销量 下 降 的 原因 吗 ? 


世上 没有 俄 问 题 
问 : 我 怎么 知道 价值 下 降 确 实 会 导致 咖啡 销量 下 降 ? 
管 : 你 没 法 知道 。 但 目前 只 有 感知 价值 数据 与 销量 的 下 降 相 吻合 。 销 量 
和 感知 价值 看 起 来 像 古 在 并 肩 下 落 ， 但 你 无 法 确定 是 价值 的 下 降 导 致 了 
销量 的 下 降 ， 目 前 ， 这 只 是 理论 上 的 判断 。 
问 : 会 不 会 有 其 他 作用 因素 ? 可 能 价值 问题 并 不 像 看 上 去 那么 简单 。 
管 : 几乎 可 以 肯定 会 有 其 他 因素 在 起 作用 ， 使 用 观察 研究 方法 时 ， 应 当 
假定 其 他 因素 会 混杂 你 的 结论 ， 因 为 你 无 法 像 控 制 实验 那样 控制 这 些 因 
素 。 后 面 几 页 会 进一步 讨论 这 些 行 话 。 


a 会 不 会 正好 相反 呢 ? 可 能 正 是 销量 下 降 让 人 们 认为 咖啡 没有 什么 价 


答 :， 问 得 非常 好 ， 很 有 可 能 正好 相反 。 分 析 师 们 的 一 个 很 好 的 经 验 法 则 
是 ， 当 你 开始 怀疑 因果 关系 的 走向 时 〈 如 价值 感 的 下 降 导 致 销量 下 
0 
A 


间 : ”那么 我 如 何 看 出 是 谁 导致 了 谁 ? 


管 : 我 们 将 在 本 书 中 大 量 讨论 如 何 判定 原因 ， 但 现在 你 该 知道 的 是 ， 当 
涉及 判定 因果 关系 时 ， 观 察 研 究 法 并 不 是 那么 强大 有 力 。 一 般 情况 下 ， 
需要 使 用 其 他 工具 才能 进行 判定 。 


间 :” 听 起 来 观察 研究 法 没什么 意思 
管 : 完全 不 是 这 么 回 事 ! 观察 数据 无 所 不 在 ， 要 是 因为 观察 研究 法 有 不 


足 之 处 束 忽 视 这 种 方法 ， 那 可 是 决 了 。 真 正 重 要 的 是 ， 你 要 了 解 观察 研 
完 法 的 局 限 性 ， 这 样 才 不 会 得 出 错误 的 结论 。 


你 新 谓 哆 “ 价 全 问题 ”在 我 西府 里 根 
和 注 不 存在 ! 我 们 的 呈 巴 全 闸 呀 遂 千 
这 和 天， 如 消 大 认为 星 巴 仁 地 和 子 俐 入。 
将 守 是 只 里 岳 畏 了 。 


了 
企 从 
要 
SoHo 区 的 区 域 经 理 不 同意 


SoHo 区 十 一 个 富 人 区 ， 也 是 儿 家 利润 丰厚 的 星 马 什 分 店 的 所 在 地 ， 人 负责 
这 几 家 分 店 的 经 理 不 相信 价值 感 问题 的 真实 性 


你 认为 她 为 什么 不 同意 ? 是 她 的 顾客 在 说 说 吗 ? 是 数据 记录 不 正确 吗 ? 
还 是 观察 研 守 法 本 身 有 问题 ? 


一 位 典型 客户 的 想法 


吉姆 : 别 把 SoHo 区 星 巴 仕 放 在 心 上 。 那 些 家 伙 不 知道 怎么 看 数据 ， 数 据 
征 不 会 撒 说 的 。 


弗兰克 :我 可 不 愿 这 么 快 下 结论 ， 有 时 候 一 线 人 员 的 直觉 比 统计 数据 更 
能 说 明 问 题 。 


WR 
疑 。 


吉姆 : 你 有 什么 特别 的 理由 认为 这 些 数据 有 问题 ? 
乔 : 我 没 理由 。 味 道 可 疑 ? 
弗兰克 : 看 ， 我 们 需要 回头 看 看 我 们 对 典型 客户 或 一 般 客户 的 释义 。 


星 巴 仕 缺乏 价值 


可 
星 巴 仕 销量 下 降 


把 所 想到 次 事物 之 间 兵 
联系 画 出 来 ， 这 一 向 旦 
个 好 主意 ， 


a 


这 一 连 串 的 事情 没有 发 生 在 SoHo 区 居民 的 身上 ， 有 什么 原因 
吗 ? 


吉姆 : 可 能 SoHo 区 的 居民 没 受到 经 济 环境 的 打击 ， 住 那儿 的 人 富 得 冒 
油 ， 还 自私 自 利 。 


乔 : 喂 ， 我 女 朋 友 住 在 SoHo 区 。 
弗兰克 :， 搞 不 懂 你 怎么 说 动 这 等 风流 人 物 和 你 约会 的 。 吉 姆 ， 你 可 能 说 


a 要 是 有 人 理财 能 力 强 的 话 ， 可 能 束 不 那么 容易 相信 星 巴 什 缺 乏 价 


和 人们 的 反 闪 车 成 
了 这 个 结 尿 . 


看 起 来 ，SoHo 区 星 巴 仕 店 的 顾客 可 能 和 其 他 星 巴 仕 店 的 顾客 不 一 


观察 分 析 法 充满 混杂 因素 


混杂 因素 就 是 研究 对 象 的 个 人 差异 ， 它 们 不 是 你 试图 进行 比较 的 因素 ， 
最 终 会 导致 分 析 结 果 的 敏感 度 变 差 。 


在 这 个 案例 中 ， 你 对 不 同时 间 段 内 的 星 巴 仕 顾客 进行 相互 比较 ， 星 巴 仕 
的 客户 显然 互 不 相同 一 一 因为 他 们 有 古 不 同 的 人 。 


但 十， 如 有 果 他 们 的 相互 差异 表现 在 你 力求 了 解 的 某 个 变量 方面 ， 这 种 差 
异 就 是 混 洒 因素 ， 本 例 中 的 混杂 因素 是 店 址 。 


T Y T T 
T p 9 T 9 | 
这 是 也 哨 星 巴 ooo ? 88SG888 乎 Q 
仕 领 客 . 5583888388359S 
SS Se 
ce 
Do 
oo Y 8 
下 了 了 


“oo 区 的 顾客 可 能 和 其 他 磊 害 乐 一 样 


A Rd 2 As je 0 . 加 
种 不 一 样 在 提 乱 我 们 多 分 析 续 果 . 


动 动笔 
重新 绘制 对 开 页 中 的 因果 图 ， 将 SoHo 店 和 其 他 店 分 开 ， 校 正 选 址 混 


人 1 \ » 


Ju 
(2 


假定 SoHo 区 区 域 经 理 是 正确 的 ， 即 SoHo 区 顾客 并 没有 感受 到 价值 问 
题 。 那 么 这 种 现象 对 销量 有 何 影响 呢 ? 


店 址 可 能 对 分 析 结 采 有 哪些 影响 


这 是 一 张 经 过 重新 整理 的 图 形 ， 图 中 表现 了 可 能 会 发 生 的 事情 。 用 这 样 
ee 的 确 非 常 棒 ， 能 让 你 自己 和 你 的 客户 顺 着 


; SoHo 区 各 分 应 
民选 时 喜 必 乔 帮 说 ji。 上 一 二 
由 去 兰 拘 密 户 情 况 、 1 [ele 


TS CR |! 1 2 2 让 ! 3 
加 : 从 们 的 匀 少 了 | 
| 人 们 全 共和 
| I 大 们 认为 时 巴 仁 摧 乏 价 位 
兽人 凶 基 示 事 馈 的 : : 
类 计 虎 订 ， 以 总 时 巴特 跨 啡 恢 夏 
gh 3 永 加 对 家 了 : 有 愉 值 
or 个 lr) Be. : : ! 
再 个 名 果 ， : > 时 巴 什 锁 量 下 陈 
' BtH a 1 
强 动 : 


考 考 你 


怎样 处 理 一 下 数据 才能 看 出 是 否 SoHo 区 星 巴 仕 分 店 的 价值 感 仍然 良好 ? 
更 概括 地 说 ， 怎 样 处 理 一 下 观察 研究 数据 才能 让 混杂 因素 得 到 控制 ? 


世上 没有 傻 问 题 


问 : 在 这 个 案例 中 ， 的 确 是 客户 的 财富 而 不 是 咖啡 店 的 店 址 影响 了 分 析 
结 采 吗 ? 


管 : 当然 ， 而 且 这 二 者 很 可 能 有 关系 。 如 果 你 能 得 到 每 位 顾客 有 多 少 钱 
的 数据 ， 或 者 能 知道 每 位 顾客 化 多 少 钱 会 感到 舒坦 ， 你 束 能 再 次 进行 分 
析 ， 看 出 以 财富 为 基础 划分 群 组 会 得 出 什么 结果 。 但 由 于 我 们 无 法 得 到 
这 些 信息 ， 束 只 好 使 用 店 址 。 此外， 由 于 我 们 的 理论 是 越 语 有 的 人 越 愿 
意 在 SoHo 区 消费 ， 因 此 店 址 能 说 明 问 题 。 


问 : 除了 店 址 ， 有 没有 别 的 变量 可 能 混杂 这 些 数据 ? 


答 : 肯定 有 。 混 杂 因 素 是 观察 研究 法 绕 不 开 的 问题 。 作 为 分 析 师 ， 你 的 
工作 就 是 不 断 考 虑 混杂 因素 对 分 析 结 果 的 影响 。 如 有 果 你 认为 混杂 因素 的 
影响 微不足道 ， 很 好 ; 但 如 宁 有 理由 相信 这 些 混杂 因素 正在 引发 问题 ， 
那么 ， 你 就 需要 相应 调整 目 己 的 结论 。 


问 : 如 果 混 杂 因素 难以 发 现 怎么 办 ? 


答 : 这 正 是 问题 所 在 。 混 杂 因 素 通常 不 会 故意 在 你 眼前 晃 悠 。 为 了 让 自 
己 的 数据 尽量 有 说 服 力 ， 你 需要 自己 动手 把 这 些 隐 藏 的 混杂 因素 挖 出 
来 。 在 本 例 中 ， 我 们 很 笠 运 ， 因 为 地 址 这 个 混杂 因素 其 实 就 在 数据 里 ， 
因此 我 们 可 以 处 理 和 管理 这 个 数据 。 通 常 我 们 无 法 得 到 混杂 因素 信息 ， 
这 会 严重 动摇 整个 分 析 的 根基 ， 让 你 无 法 得 到 正确 结论 。 


问 : 我 要 做 到 什么 程度 才 算 查 清 了 混杂 因素 ? 


管 : 这 与 其 说 是 科学 ， 莫 如 说 是 艺术 。 你 不 妨 就 自己 正在 研究 的 问题 问 
目 己 一 些 第 识 性 问题 ， 借 此 想象 哪些 变量 可 能 会 影响 你 的 分 析 结 采 。 正 
如 数据 分 析 和 统计 学 中 的 各 种 手段 一 样 ， 无 论 你 的 量化 技术 多 么 出 神 入 
化 ， 真 正 的 重点 却 永 远 在 于 : 分 析 结 论 要 有 意义 。 只 要 结论 有 意义 ， 而 
且 你 已 经 彻头彻尾 地 查找 过 混杂 因素 ， 那 么 你 束 已 经 做 了 观察 研究 法 要 
求 你 做 的 一 切 工作 。 其 他 类 型 的 分 析 ， 如 后 文 所 述 ， 可 以 让 你 做 出 更 大 


胆 的 结论 。 


问 : 如果 我 研究 的 不 是 价值 感 而 是 其 他 对 象 ， 同 样 对 于 这 些 数据 ， 店 址 
征 否 不 会 成 为 混杂 因素 ? 


答 : 完全 正确 。 记 住 ， 只 是 在 这 个 例子 中 ， 店 址 才 是 一 个 混杂 因素 ， 但 
在 其 他 例子 中 可 能 并 没有 人 作用。 例如， 在 这 里 我 们 没有 理由 相信 “咖啡 温 
度 让 人 感觉 恰恰 好 ”这 个 因素 在 每 个 地 方 都 不 一 样 。 

问 : ”我 仍然 觉得 观察 研究 法 有 很 多 很 严重 的 问题 。 

答 : 观察 分 析 法 是 有 很 大 局 限 性 。 这 种 特别 的 研究 方法 的 作用 在 于 帮助 
你 更 好 地 了 解 星 巴 仕 的 客户 ， 只 要 你 控制 好 数据 中 的 店 址 问题 ， 研 究 就 
会 更 有 说 服 力 。 

拆 分 数据 块 ， 管 理 混杂 因素 


se A 有 时候， 将 数据 拆 分 为 更 小 的 数据 块 十 


这 些小 数据 块 更 具 同 质 性 。 换 句 话说 ， 这 齿 小 数据 买 个 包 合 那 择 有 可 能 
扭曲 你 的 分 析 结 果 及 让 你 产生 错误 想法 的 内 部 侦 差 


一 次 将 其 他 地 区 的 数据 列 在 相应 的 


星 巴 仕 咖 啡 店 : 所 有 分 店 


乔 2009 年 1 日 汶 止 的 市 场 调查 汇总 。 表 中 数字 是 在 名 家 分 广大 加 调查 的 人 对 务 个 调 宏 项 


茹 出 的 平均 分 ， | 
O08 年 8 入 | 路 怎 9 月 ”04 年 19 肝 | 年 1 时 108 年 12 上 0 年 ] 习 
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狂 |! 啡 也许 4 #44 本 了 有 4 了 


三 虽说 区 
只 二 热情 


| | 
4.8 5 


号 二 
4 了 .7 
Wd 
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练习 
请 看 对 开 页 的 分 组 数据 。 
东 岸 区 分 店 平均 得 分 和 星 巴 仕 所 有 分 店 平均 得 分 有 何 差 异 ? 


将 所 有 数据 组 的 咖啡 感知 价值 相互 之 间 比 较 ， 情 况 如 何 ? 


SoHo 区 区 域 经 理 “ 客 户 对 星 巴 仕 咖啡 感觉 很 好 ”的 判断 正确 吗 ? 


证 


练习 解答 
查看 已 经 按 店 址 分 组 的 调查 数据 ， 你 能 看 出 什么 ? 
东 岩 区 分 店 平均 得 分 和 星 巴 什 所 有 分 店 平均 得 分 有 何 差异 ? 


将 所 有 数据 组 的 咖啡 感知 价值 相互 之 间 比 较 ， 情 况 如 何 ? 


反馈 并 有 日 因为 
着 
情况 比 预料 的 更 糟 ! 
为 了 解决 你 们 所 发 现 的 问题 ， 大 人 物 们 都 行动 起 来 了 。 


J 


首 斋 财务 官 


首席 财务 : 情况 比 我 们 预料 的 还 糟糕 ， 粳 透 了 。 除 了 SoHo 区 ， 各 个 
区 的 价值 感 都 已 经 彻底 跌 穿 地 板 。 


营销 副 总 : 没 错 。 第 一 张 表 体现 了 所 有 区 的 数据 ， 确 实 让 价值 感 看 
上 去 比 实际 的 要 好 。SoHo 区 把 数据 向 好 的 方向 扭曲 了 。 


首席 财务 : 只 要 把 人 人 都 是 富翁 的 SoHo 区 剥离 出 来 ， 就 可 以 看 出 
人 但 其 他 顾客 却 都 在 徘徊 中 甩 手 离 
营销 副 总 : 所 以 我 们 要 搞 清楚 该 怎么 办 。 

首席 财务 ， 我 来 告诉 你 该 怎么 办 一 一 大 减 价 。 

营销 副 总 : 什么 ? 1 ? 

加 务 : 你 没 听 错 ， 我 们 得 大 减 价 。 这 样 人 们 就 会 觉得 价值 不 错 


营销 副 总 :我 不 知道 你 是 从 哪个 星球 来 的 ， 但 我 们 得 考虑 品牌 。 


首席 财务 ， 我 来 自 商业 星球 ， 我 们 把 这 叫做 供与 求 ， 你 大 概 想 回 学 
校 重修 这 些 词 的 意思 吧 。 减 价 ， 然 后 需求 上 升 。 

营销 副 总 : 要 是 削减 成 本 ， 短 期 内 我 们 可 能 会 看 到 销量 回升 ， 但 会 
° 我们 需要 想 办 法 在 价格 不 变 的 情况 下 说 服 人 们 : 星 
色 介 倡 。 


首席 财务 : 这 是 疯 话 。 我 现在 说 的 是 经 济 ， 钞 票 。 有 激励 人 们 才 有 
反应。 你 这 种 前 怕 狼 后 怕 虎 的 想法 是 不 会 把 我 们 救出 困境 的 。 


你 手头 的 数据 是 否 能 让 你 明了 哪 种 策略 将 提高 销量 ? 
你 需要 做 一 个 实验 ， 指 出 哪 种 策略 最 有 效 


请 再 看 一 下 上 一 页 最 后 一 个 问题 : 
你 手头 的 数据 是 否 能 让 你 明了 哪 种 策略 
将 提高 销量 ? 

WR 


你 没有 任何 观察 数据 能 够 表明 ， 如 采 试 着 照 萌 销 副 总 裁 或 首席 财务 官 的 
建议 去 做 ， 将 会 发 生 什 么 情况 。 
如 条 你 想 对 与 数据 相符 合 但 并 未 在 数据 中 充分 体现 的 事情 做 出 结论 ， 束 
需要 用 理论 将 它们 联系 起 来 。 


流出 建 褒 可 能 是 允 曲 ， 忆 忆 能 坷 总 
人 炉 说 出 幸 ， 


丘 社 ， 人 得 浆 睛 扶 据 斗 注 啶 从 

) 市 场 吾 销 筑 略 

| 辣 人 :进行 浏 糙 ， 愉 此 骨 站 下 少 、 只 包 让 就 
| “ 游 浊 使 人 们 六 起 反 应 1 3 害 而 及 有 有 价 何 。 说 汉人 生疏 变 仁 念 ， 治 坦 体 
| | | 蕴 酸 由 . 


\ 
NA 首席 财务 官 的 经 济 理论 


' 首席 财务 官 的 角 路 | 
f 刁 阅 使 信人 科 产生 版 应 。 1 SP 除 企 5 叶 故 本， 各 矢 所 大 们 对 三 巴 仙 Wr 上 知 | 
从 信和 吕 堂 王 原 ， 将 但 攻 镶 妇 上 证， | 


尽管 这 二 位 都 狂热 地 相信 目 己 的 理论 及 根据 这 些 理论 制定 的 策略 ， 你 却 
没有 数据 支持 任何 一 种 理论 。 


为 了 进一步 弄 清 楚 哪 种 策略 更 好 ， 你 将 需要 做 一 个 实验 。 
你 需要 对 这 些 策略 进行 实验 ， 目 的 是 了 解 哪 种 策略 将 提高 销量 。 
星 巴 仕 首席 执行 官 已 经 急 不 可 符 


我 已 经 类 去 耐心 了 。 我 
赞同 首席 财务 官 鬼 现 点 ， 
减 价 以 观 后 政 。 


不 管 你 是 不 是 已 经 做 好 准备 ， 他 要 动手 了 ! 
让 我 们 看 看 他 的 战术 怎么 展开 .……. 


星 巴 仕 降价 了 


在 首席 财务 官 的 提示 下 ， 首 遍 执行 官 下 令 所 有 分 店 在 二 月 集体 降价 ， 所 
有 星 巴 仕 分 店 的 咖啡 价格 统统 降低 0.25 美 元 。 


$3.75 


这 种 改变 会 引起 销量 暴 增 吗 ? 何以 见得 ? 
一 个 月 局 www 


竹 执 了 ， 二 才 会 对 降价 党 到 润 次 ， 不 
这 ， 着 首 这 中 活 员 过 名。 拓 在 我 壳 科 
如 道 ， 榜 这 这 得 齿 训 到 司 ， 析 们 多 购 
了 玄学 此 


单 让 于 可 入 大 人 计 技 


练习 


要 是 能 知道 星 巴 仕 二 月 份 降价 比 不 降价 多 赚 了 多 少 就 好 了 。 你 认为 
销量 中 有 数据 能 帮助 搞 清楚 这 一 点 吗 ? 为 什么 ? 


练习 


人 
吗 ? 


以 控制 组 为 基准 


对 于 多 赚 了 多 少 钱 ， 你 豪 无 头绪 。 SE “要 是 首席 执行 官 未 下 令 减 
本 该 产生 的 销量 ”， 现 在 这 个 销量 可 能 是 暴涨 ， 也 可 能 是 暴跌 ， 然 
难 成 定论 。 

难 成 定论 的 原因 是 ， 首 席 执 行 官 下 令 集 体 降价 ， 这 违背 了 比较 法 。 好 的 
个 控制 组 〈 对 照 组 ) ， 使 分 析 师 能 够 将 检验 情况 与 现状 进 
行 比较 。 


术语 角 


控制 组 (Control group ) 一 组 体现 现状 的 处 理 对 象 ， 未 经 过 任何 
新 的 处 理 〈 也 称 对 照 组 ) 。 


避 系 旦 巴 仕 锡 竺 玉 状 ， 宵 六 
NT ,RW ££ 


日 期 


没有 控制 组 就 意味 着 没有 比较 ， 没 有 比较 就 意味 着 无 法 对 所 发 生 
的 情况 进行 判断 。 


世上 没有 傻 问题 
问 : 我们 不 能 拿 二 月 份 的 数据 和 一 月 份 的 数据 进行 比较 吗 ? 


管 : 当然 可 以 。 要 是 你 们 感 兴趣 的 只 是 二 月 份 的 销量 是 否 比 一 月 份 的 
高 ， 征 能 有 答案 的 。 但 在 不 加 以 控制 的 情况 下 ， 这 些 数 据 无 法 体现 其 与 


价格 下 降 的 内 在 联系 。 
问 : 拿 今年 二 月 份 的 数据 和 去 年 二 月 份 的 数据 进行 比较 怎么 样 ? 


管 : 你 在 这 个 问题 和 最 后 一 个 问题 中 谈 到 的 都 是 历史 控制 法 ， 这 种 方法 
取 用 过 去 的 数据 ， 并 将 这 些 数 据 作 为 控制 数据 ; 与 此 相反 的 是 同期 控制 
法 ， 在 这 种 方法 中 ， 控 制 组 与 实验 组 在 同样 的 时 期 内 经 历 同样 的 事 。 历 
史 挥 制 法 通常 偏向 于 你 力图 进行 检验 的 对 象 的 成 功 方 面 ， 因 为 很 难 选 出 
ee, "总体 上 说 ， 你 应 该 对 历史 控制 法 表 
示 怀 疑 。 


问 : 一 定 要 用 控制 组 吗 ? 从 来 没有 一 个 案例 是 不 用 控制 组 也 行 得 通 的 
13? 


管 : 世上 有 很 多 无 法 控制 的 事 。 例 如 选举 投票 ， 选 民 不 能 同时 选 两 个 候 
选 人 ， 你 不 能 先 看 看 谁 比 谁 进展 更 好 ， 然 后 再 回头 去 选 更 为 成 功 的 一 
位 。 虽 说 选举 方式 无 法 改变 ， 却 不 表示 不 能 一 对 一 地 分 析 各 种 迹象 ， 但 
征 ， 如 采 能 够 做 一 个 与 此 类 似 的 实验 ， 吏 能 对 上 自己 的 选择 更 为 目 信 ! 


问 : 那 医学 试验 怎么 说 ? 假设 你 想 试用 一 种 新 药 ， 并 且 相 信 这 种 药物 非 
难道 你 不 给 分 在 控制 组 里 的 病人 治疗 ， 而 任 由 他 们 生病 或 等 
bb 


管 : 这 是 一 个 考虑 了 法 律 伦理 学 的 好 问题 。 缺 乏 控 制 数据 (或 使 用 历史 
控制 数据 ) 的 医学 研究 所 青睐 的 疗法 随后 往往 被 同期 控制 实验 表明 没有 
效果 或 甚至 有 害 。 无 论 你 对 一 种 治疗 方法 的 感情 如 何 ， 除 非 做 控制 实验 
(对 照 实验 ) ， 和 否则 无 法 确定 进行 治疗 是 否 比 不 进行 任何 治疗 更 有 效 。 
最 糟 料 的 情况 是 ， 对 于 实际 上 于 人 有 损 的 治疗 ， 要 停止 推广 。 


问 : ”就 像 给 病人 进行 放血 治疗 一 样 吗 ? 

答 : 对 极 了 。 历 史上 最 早 的 控制 实验 中 就 有 一 些 将 放血 疗法 与 让 病人 静 
养 相 比较 。 坦 白 说 ， 使 用 了 几 百 年 的 放血 疗法 让 人 厌恶 极 了 ， 现 在 ， 
为 做 了 控制 实验 ， 我 们 知道 这 是 一 种 错误 的 疗法 。 

问 : ”观察 研究 法 有 控制 数据 吗 ? 


答 :， 当然 有 。 记 住 观 察 研 究 法 的 定义 ; 这 种 研究 方法 让 研究 对 象 自己 决 
定 他 们 属于 哪个 组 ， 而 不 是 由 研究 者 来 决定 。 例 如 ， 如 果 想 做 一 个 关于 
吸烟 的 研究 ， 你 无 法 让 某 些 人 成 为 烟 民 或 不 成 为 烟 民 ， 决 定 是 否 抽烟 的 
ee 
空 制 组 。 


问 : 我 经 历 过 各 种 各 样 的 情况 ， 销 量 都 在 一 个 月 内 上 涨 ， 据 说 是 由 于 我 
们 上 一 个 月 做 的 一 些 工作 ， 而 且 ， 因 为 别人 说 我 们 做 得 不 错 ， 大 家 都 感 
觉 民 好 。 但 你 现在 却说 我 们 对 上 自己 做 得 是 好 是 坏 完 全 没有 头绪 ? 


管 : ”你们 可 能 是 做 得 不 错 。 商 业 生 活 中 免不了 有 赁 直觉 办 事 的 时 候 ， 有 
时 你 无 法 控制 实验 ， 必 须 依赖 基于 观察 数据 的 判断 。 但 是 ， 只 要 能 做 实 
验 就 做 吧 。 在 下 决定 的 时 候 ， 再 没有 比 可 靠 的 数据 更 能 为 你 的 判断 和 直 
觉 提 供 补充 了 。 在 这 个 例子 中 ， 你 还 没有 得 到 可 靠 的 数据 ， 却 有 一 位 泡 
望 答案 的 首席 执行 官 。 


a te de Se 你 该 如 何 管 


吉姆 : 首席 执行 官 要 求 我 们 弄 清 楚 ， 二 月 份 赚 的 钱 中 有 和 多少 是 不 减 
价 本 来 赚 不 到 的 ， 我 们 得 给 这 家 伙 一 个 答案 。 


弗兰克 : 喔 ， 这 可 是 个 环 手 问题 。 我 们 对 于 多 赚 了 多 少 钱 毫 无 头 
可 能 赚 了 不 少 ， 但 也 可 能 赔 了 钱 。 我 们 算是 丢人 现 眼 了 ， 惹 碾 
和 烦 了 。 


乔 : 怎么 会 ， 我 们 完全 可 以 把 销售 收入 和 历史 控制 数据 相 比 校 ， 可 
能 不 会 非常 令 人 满意 ， 但 他 会 开心 的 ， 这 如 是 一 切 意 义 所 在 。 


弗兰克 : 客户 开心 就 是 一 切 意 义 所 在 ”看 来 你 是 想 明 哲 保 身 。 要 是 
我 们 给 他 错误 的 答案 ， 问 题 最 终 还 是 会 落 到 我 们 头 上 。 


乔 ; 随 你 怎么 说 。 
弗兰克 : 我 们 将 不 得 不 向 他 坦白 事实 ， 这 不 会 是 个 美 差 。 


吉姆 看， 其 实 我 们 已 经 有 眉目 了 。 我 们 只 需 为 三 月 份 设 定 一 个 控 
制 组 ， 然 后 再 做 一 次 实验 。 


弗兰克 : 但 首席 执行 官 对 二 月 份 的 进展 感觉 良好 ， 因 为 他 对 这 些 进 
展 有 误会 ， 我 们 必须 打消 他 这 种 良好 的 自我 感觉 。 


吉姆 ， 我 想 我 们 能 让 他 清醒 地 思考 ， 而 不 是 噬 之 以 鼻 。 
避免 解雇 123 


免不了 要 报 告 坏 消息 是 数据 分 析 师 工作 的 一 部 分 ， 不 过 ， 同 样 的 请 妃 却 
可 以 用 各 种 不 同 的 方式 来 表达 。 


让 我 们 直 说 吧 : 如 何 才 能 既 说 出 坏 消息 ， 又 不 被 炒 鲜 鱼 ? 
顶级 数据 分 析 师 懂得 妥当 地 报告 有 可 能 令 人 诅 形 的 消息 。 


你 说 得 对 ! 我 们 的 销量 
扶 所 站 上 ， 涨 了 100%， 
你 是 个 天 才 | 


说 法 1: 没什么 坏 消息 。 


我 们 续 尽 了 脑汁 ， 一 切 
爹 完了 。 刷 求 你 别 炒 我 


说 法 2: 情况 不 妙 ， 我 们 撤 吧 ! 


坏 消息 是 实验 没有 给 我 
们 带 来 起 要 歇 答 案 ， 将 消 
息 是 我 知道 加 何 解决 这 个 


说 法 3: 事情 不 尽 如 人 和 人意 ， 但 只 要 我 们 处 理 得 当 ， 坏 消息 殊 会 变 成 好 消 


哪 一 种 说 法 不 至 于 让 你 被 炒 鲈鱼 ? 
今天 ? 
明天 ? 


下 人 


让 我 们 重新 认真 做 一 次 实验 


我 们 正在 做 三 月 份 的 实验 ， 这 一 次 ， 营 销 部 把 所 有 的 星 巴 仕 分 店 分 成 了 
控制 组 和 实验 组 。 


实验 组 包括 太平 洋 区 所 有 分 店 ， 控 制 组 包括 SoHo 区 和 东 岸 区 所 有 分 店 。 


发 件 人 : 时 巴 仕 首席 执行 官 
收 件 人 : Head First 
主题 ，” 宙 要 重新 局 实验 


我 知道 情况 了 ， 高 曹 事 大 会 石 开 还 有 两 个 
月 的 时 间 。 该 做 什么 就 做 什么 吧 ， 六 次 村 


时 间 凤 这 | 
a 
太平 洋 区 


$3.75 


控制 组 
SoHo 区 和 东 岸 区 


有 


价 扒 保 接 未 变 


So $0 


$4.00 


人 月 用 
事情 看 起 来 非常 顺 ! 实验 可 能 会 让 你 看 到 想 
单 店 日 平 同 慨 入 


想 减 价 的 效果 。 


日 贷 二 


忽 们 是 备 访 告 放 自 高 芍 行 
官 。 最 上 籽 确 人 各 实验 中 并 信 
改 前 那样 育 变 泥 订 因 于 . 


有 混杂 因素 吗 ? 


记 佳 ， 混 杂 因 素 是 所 研究 的 各 个 组 之 间 的 差异 ， 而 不 是 试图 进行 比较 的 
对 未 。 


动 动笔 

请 观察 前 一 页 的 设计 和 以 上 结果 。 

这 些 变 量 会 成 为 分 析 结 采 的 混杂 因素 吗 ? 
文化 


LE 


LE 


LE 


LE 


动 动笔 解答 


这 些 变量 会 成 为 分 析 结 果 的 混杂 因素 吗 ? 


文化 


店 址 


EE 上 洁 守明 泥 姑 央 吉 。 


= WD A SA Ed 


实验 照样 会 席 于 混杂 因素 


A 所 有 还 没有 摊 脱 混杂 因素 的 
鞠 双 


为 了 有 效 地 进行 比较 ， 各 个 组 必须 相同 ， 否 则 无 异 于 拿 苹果 和 柳 子 比 ! 


We 


” 所 有 个 巴 化 刚才 ， 


和 


混杂 因素 


你 的 实验 结果 显示 ， 实 验 组 的 营业 收入 提高 了 ， 这 可 能 是 因为 咖啡 
减 价 后 人 们 增加 了 消费 ， 但 由 于 组 与 组 之 间 无 法 相互 比较 ， 因 此 也 
有 可 能 是 其 他 原因 造成 营业 收入 增高 亏 可 能 造成 东 岸 区 尼 
不 出 []， 太 平 洋 区 的 经 济 可 能 正在 腾飞 。 到 故 是 什么 原因 ? 由 于 有 
混杂 因素 的 存在 ， 你 永远 也 找 不 到 答案 。 


精心 选择 分 组 ， 避 免 混杂 因素 


正如 观察 分 析 法 一 样 ， 避 免 混 洒 因素 完全 要 靠 正 确 将 咖啡 店 分 组 。 但 怎 
么 分 才 好 呢 ? 


，。 所 有 星 巴 仕 顾客 ， 


哪 种 分 组 方法 最 好? 


动 动笔 
这 里 有 四 种 分 组 方法 。 你 怎么 看 竺 每 种 方法 在 避免 形成 混杂 因素 上 
的 作用 ? 你 认为 哪 一 种 分 组 方法 最 好 ? 


轮流 按 不 同 的 价格 给 顾客 结账 。 这 样 一 来 ， 一 半 有 顾客 进入 实验 组 ， 
一 半 顾 客 进 入 控制 组 ， 店 址 不 再 成 为 混杂 因素 。 


DEEEEEEIEIEEREEEEEEEEEEEEEEEEEEEEEEEEEEEEIEEEEIEIEEIEEEEIEEEEEEEE 
wr 
和 


使 用 历史 控制 法 ， 将 这 个 月 的 所 有 店 作 为 控制 组 ， 下 个 月 的 所 有 店 
作为 实验 组 。 


worm 
wr 


和 


将 不 同 的 店 随机 分 配给 控制 组 和 实验 组 。 


站 
wr 
和 


将 大 的 地 理 区 域 分 成 小 的 地 理 区 域 ， 随 机 将 这 些微 区 域 分 进 控制 组 
和 实验 组 。 


和 
wr 


和 


你 认为 哪 一 种 分 组 方法 最 好 ? 


轮流 按 不 同 的 价格 给 顾客 结账 。 这 样 一 来 ， 一 半 有 顾客 进入 实验 组 ， 
一 半 顾 客 进 入 控制 组 ， 店 址 不 再 成 为 混杂 因素 。 


项 客 


使 用 历史 控制 法 ， 将 这 个 月 所 有 店 作为 控制 组 ， 下 个 月 所 有 店 作为 


将 大 的 地 理 区 域 分 成 小 的 地 理 区 域 ， 随 机 将 这 些微 区 域 分 进 控制 组 
和 实验 组 。 


随机 选择 相似 组 


从 对 象 池 中 随机 选择 对 和 象 是 避免 混杂 因素 的 极 好 办 法 。 


在 将 对 象 随 机 分 配 到 各 个 组 里 以 后 ， 最 终 的 结果 是 : 可 能 成 为 混杂 因素 
的 那些 因素 最 终 在 控制 组 和 实验 组 中 具有 同 票 同 权 。 


这 是 整个 大 区 。 


悉 个 微 区 减 往 条 和 其 介 稚 
区 声 具 索 朱 同 梧 时 点 ， 


0 


随机 访谈 
本 周 访问 : 
天 啊 ， 太 随机 了 吧 


Head First: 随机 先生 ， 感 谢 您 授 受 我 们 的 采访 。 很 明显 您 频繁 出 现在 数 
据 分 析 中 ， 您 能 来 真是 太 好 了 。 


随机 先生 : 哦 ， 我 每 一 秒 钟 的 行程 都 有 点 说 不 准 ， 我 没有 真正 的 计划 。 
我 能 来 这 里 呆 ， 喝 ， 像 是 滚 仍 子 滚 过 来 的 。 


Head First: 有 和 意思。 这 么 说 您 对 于 上 自己 没有 什么 计划 或 设想 ? 
随机 先生 : ， 正 是 如 此 ， 东 一 构 头 西 一 棒子 就 是 我 的 风格 。 


Head First: 那 你 为 什么 在 实验 设计 中 这 么 有 用 呢 ? 数据 分 析 讲究 的 不 束 
是 秩序 和 方法 吗 ? 


随机 先生 : ” 当 分 析 师 通过 我 的 力量 来 选择 属于 实验 组 或 设计 组 的 人 或 商 
店 (或 者 诸如 此 类 ) 时 ， 我 的 魔法 会 让 所 得 到 的 分 组 互 为 同类 。 我 甚至 
还 能 收拾 隐形 的 混杂 因素 ， 毫 无 问题 。 


Head First: 说 说 看 ? 


随机 先生 : 假设 有 半数 人 受 某 种 隐 性 混杂 因素 的 影响 ， 这 种 混杂 因素 叫 
做 X 因 素 ， 挺 吓人 的 ， 对 吧 ? X 因 素 会 大 大 扰乱 你 的 分 析 结 果 。 你 不 知道 
人 也 没有 任何 关于 它 的 数据 ， 但 这 种 因素 一 直 存 在 ， 随 
时 会 冒 5 


Head First: 但 观察 分 析 法 免不了 有 这 种 风险 。 


随机 先生 当然， 但是， 假定 你 在 实验 中 利用 我 来 将 人 群 分 进 实验 组 和 
控制 组 ， 结 果 是 ， 两 个 组 中 的 X 因 素 最 终 分 量 一 样 。 如 果 总 人 数 中 有 半数 
人 含有 这 种 隐 性 因素 ， 那 么 ， 划 分 后 的 每 个 组 中 也 有 半数 人 含有 这 种 隐 
性 因素 。 这 就 是 随机 法 的 力量 。 


Head First: 这 么 说 X 因 素 可 能 仍然 会 影响 分 析 结 果 ， 但 对 两 个 组 的 影响 
是 完全 一 样 的 ， 这 意味 着 可 以 对 自己 的 检验 目标 进行 有 效 的 比较 ? 


随机 先生 : ”的确 如 此 ， 随 机 控制 是 各 种 实验 的 黄金 标准 。 没 有 它 你 也 能 
做 实验 ， 但 要 是 有 了 它 ， 你 惑 能 做 得 最 好 。 随 机 控制 实验 能 让 你 最 大 限 
度 地 接近 数据 分 析 的 核心 : 证 明 因 采 关 系 。 


Head First: 您 是 说 随机 控制 实验 能 证 明 因果 关系 吗 ? 


随机 先生 :， 喔 , “证明 * 是 一 个 非常 非常 重 的 词 ， 我 得 回避 这 种 说 法 ， 但 
请 想 想 随机 控制 实验 能 让 你 得 到 的 结果 : 你 在 检验 两 个 组 ， 除 了 要 检验 
的 变量 ， 两 个 组 在 各 个 方面 都 一 样 ， 如 果 两 个 组 的 检验 结 采 有 任何 不 
同 ， 除 了 归结 于 这 个 变量 还 能 归结 于 什么 呢 ? 


Head First: 那 我 怎么 进行 随机 分 配 昵 ? 假定 我 有 一 份 数 据 表 ， 想 要 随机 
选择 表 中 数据 ， 将 表 一 分 为 二 ， 该 怎么 做 ? 


随机 先生 : 很 简单 。 在 你 的 电子 数据 表 程 序 中 ， 创 建 一 列 ， 称 为 随机 
(Random) ， 将 下 面 这 个 公式 输入 第 一 个 单元 格 : =RANDO， 对 表 中 的 
每 个 数据 复制 和 粘贴 这 个 公式 ， 再 对 随机 列 进 行 排序 。 行 了 ! 然后 就 可 
以 将 数据 表 分 成 控制 组 和 多 个 实验 组 ， 实 验 组 的 个 数 根 据 需 要 决定 。 这 
就 万 事 俱 备 了 ! 


动 动笔 

现在 该 设计 你 的 实验 了 。 既 然 你 已 经 了解 了 观察 研究 法 和 实验 研究 
法 、 挥 制 组 和 实验 组 、 混 杂 因 素 和 随机 性 ， 你 束 应 当 能 够 设计 合适 
的 实验 ， 找 到 想 要 的 答案 。 

你 试图 证 明 什 么 ? 为 什么 ? 


你 的 控制 组 和 实验 组 将 是 什么 样子 ? 


如 何 避 免 混 洒 因 素 ? 


你 的 分 析 结果 会 是 什么 样子 ? 


喂 | 你 应 该 增加 一 个 实 
验 组 ， 让 人 们 党 得 星 巴 
仕 很 有 价值 ， 这 和 样 我 们 
才 知 道 谁 是 对 蝎 一 一 是 
我 还 是 首 斋 财务 官 ] 


动 动笔 解答 
你 刚 设计 好 自己 的 第 一 个 随机 控制 实验 。 
它 会 如 你 所 愿 好 好 发 挥 作用 吗 ? 

你 试图 证 明 什么 ? 为 什么 ? 
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你 的 控制 组 和 实验 组 将 是 什么 样子 ? 


匡 降价 的 分 店 双 
仕 咖啡 很 有 价值 ?的 分 店 组 成 。 
如 何 避 免 混杂 因素 ? 


你 的 分 析 结 采 会 定 什么 样子 ? 


人 
Y 


1X 


准备 就 绪 ， 开 始 实 验 


在 进行 实验 前 ， 让 我 们 最 后 再 看 一 眼 我 们 的 整个 程序 ， 
上 略 最 好 。 


湄 _. 


JOAN 一 口 


下 哪个 昭 


人 人生 全 
将 答 区 域 随机 分 配给 
控制 组 和 实验 组 


| | 
>< 


| 


结果 在 此 


星 巴 仕 依 计 行事 ， 用 了 几 个 星期 做 这 个 实验 。 与 其 他 两 个 组 相 比 ， 价 值 
J 而 降价 组 的 营业 收入 其 实 是 与 控制 组 持 


理应 日 平 轧 中 入 


之 洲 科 第 格 淹 本 设 闭 烤 入 其 并 ， / 
这 张 图 非常 有 用 ， 因 为 它 进 行 了 有 效 的 比较 。 你 选择 了 同样 的 组 ， 然 后 
区 别 对 待 ， 于 是 现在 的 确 可 以 将 不 同 咖啡 店 营 业 收 入 上 的 差异 归 因 于 正 
在 检验 的 因素 。 
这 些 结果 非常 棒 ! 


人 


星 巴 仕 找到 了 与 经 验 吻合 的 销售 策略 


在 你 开始 这 段 实验 历程 的 时 候 ， 星 巴 仕 局 面 混乱 。 你 小 心地 评 佑 观察 调 
查 数据 ， 从 星 巴 仕 几 个 大 人 物 那 里 了 解 到 更 多 的 业务 信息 ， 从 而 创建 了 
随机 控制 实验 。 


实验 进行 了 有 效 的 比较 ， 表 明 游 说 人 们 星 巴 仕 咖 啡 有 价值 是 比 降价 和 维 
持 现状 更 有 效 的 提高 销量 的 办 法 。 


我 真 为 过 个 结果 启 到 高 兴 ! 
我 正在 下 今 在 所 有 的 分 庆 防 行 这 
个 策略 ，Sorto 区 各 分 声效 外 一 一 既然 
oo 网 硝 害 苍 钱 花 得 搅和 开心 ， 缆 就 未 
用 管 他 们 了 ! 


3 ”最 优化 
寻找 最 大 值 


咏 ， 老 将 ， 这 真 将 托 
要 是 有 个 橡皮 鸭 就 更 带劲 
几 了 ! 


有 些 东 西 人 人 都 想 多 多 益 善 。 


为 此 我 们 上 下 求索 。 要 是 能 用 数字 表示 我 们 不 断 追 求 的 东西 一 一 利润 、 
钱 、 效 率 、 速 度 等 ， 实 现 更 高 目标 的 机 会 就 在 眼前 。 有 一 种 数据 分 析 工 
具 能 够 帮助 我 们 调整 决策 变量 ， 找 出 解决 方案 和 优化 点 ， 使 我 们 最 大 限 
度 地 达到 目标 。 本 章 将 使 用 这 样 一 种 工具 ， 并 通过 强大 的 电子 表格 软件 
包 Solver 来 实现 这 个 工具 。 


现在 是 洽 盆 玩具 游戏 时 间 


你 受 雇 于 洽 盆 至 公司 ， 这 家 公司 执 全 国 橡皮 鸭 和 橡皮 鱼 浴 盆 玩 具 生 产 之 
牛 耳 ， 信 不 信 由 你 ， 浴 金 玩 具 是 一 项 正 正经 经 的 业务 ， 利 润 丰 厚 。 


0 听 说 时 下 盛行 通过 数据 分 析 打 理 业务 ， 于 是 给 你 来 了 电 
上 O 


接 记 和 皇 未 钙 常 舰 产 
品 ， 停 求 担 想 好 。 


A™ 


有 六 说 它 是 产 黄 产品 ， 博 大 
蔽 它 坟 掺 有 新 意 了 ， 2 


点 想 清 东 ， 检 庆 哆 得 针 续 ， 
读 会 当 沈 吝 卡 再 公 司 - 


pe} 
pe} 


a 担 挤 囊 . 7 


访 今 生 示 巾 史 和 胸 上 


动 动笔 


这 是 你 的 客户 浴盆 宝 公司 给 你 发 来 的 电子 邮件 ， 说 明了 他 们 雇佣 你 
的 原因 。 


发 件 人 :， 浴 贫 宝 

收 件 人 ，Head First 

证 巧 : 请 握 供 产品 引 合 分 析 

停歇 密 户 这 祥 丘 
亲爱 的 分 林 师 ; 述 邮 次 需 书 ， 
能 联系 上 您 真是 太 杂 了 了 | 


了 茂 们 枚 尽量 提高 型 润 ， 为 此 必须 确保 橡 去 驰 刊 术 上 


鱼 的 产品 邦 正 合 赴 。 我 们 需要 您 帮 亿 找 出 昔 想 的 产 
而 毕 售 ， 这 酚 入 产品 我 们 各 应 该 生产 多 少 ? 


期 符 您 天 始 工作 ， 我 们 对 您 饥 总 已 六 。 


台 礼 


你 需要 哪些 数据 才能 解决 这 个 问题 ? 


动 动笔 解答 
发 件 人 : 浴盆 宝 
收 件 人 : Head First 
主题 : 请 提供 产品 组 合 分 析 
亲爱 的 分 析 师 : 

能 联系 上 您 真是 太 好 了 |! 


我 们 想 尽量 提高 利润 ， 为 此 必须 确保 橡皮 胸 和 橡皮 鱼 的 产量 都 正 合 
适 。 我 们 需要 您 帮忙 找 出 理想 的 产品 组 合 ， 这 两 种 产品 我 们 各 应 该 
生产 多 少 ? 

期 待 您 开始 工作 ， 我 们 对 您 爷 慕 已 久 。 


致 礼 


你 需要 哪些 数据 才能 解决 这 个 问题 ? 


先 ， 最 好 能 够 知道 橡皮 有 鸭 和 模 皮 鱼 的 万 利 能 力 ， 是 人 否 一 种 产品 比 


细 看 一 下 你 需要 了 解 的 信息 。 
无 法 控制 的 因素 ， 可 以 控制 的 因 


m 接 红 鱼 的 学 泊 如 何 @ 区 统 吗 为 = 润 如 何 
让 :个 并。 这 
控制 砚 困 才 ns 上】 家当 多 沪 橡 胶 瑟 以 让 区 和 生产 模 点 会 要 月 劣 少 直 站 
We 牛 my 榜 度 fr tr A 
NES ; 人 ms 和 牛 产 模 友 汽 克 明 备 少 旺 旧 


a 厂家 有 各 少 摊 腔 以 夸 芭 
二 产 樟 皮 到 
挡 看 是 客户 为 了 尽量 提高 利润 而 要 你 弄 清楚 的 基本 问题 。 最 后 ， 整 
是 你 能 控制 的 ， 这 两 个 问题 的 答案 。 


这 是 体能 a 生产 多 少 橡皮 鱼 
二 | 新 Ba - 和 汪 
控制 的 因素 。 mn 生产 多 少 橡皮 鸭 


SS 


你 需要 得 到 有 关 能 控制 的 因素 和 不 能 控制 的 因素 的 可 靠 数字 。 
你 能 控制 的 变量 受到 约束 条 件 的 限制 


这 些 考虑 事项 被 称 为 约束 条 件 ， 因 为 它们 将 决定 问题 的 有 关 参 数 。 你 最 
ee 
] 办 YY 0° 


但 选择 哪 种 产品 组 合 将 会 受到 约束 条 件 的 限制 。 


发 什 人 : 浴盆 宗 

卜 件 人 人，Head First 

三 是 可 笔 甩 和 押 的 信息 
亲 券 的 苍术 遇 


避 得 好 。 关 十 琼 息 供应 量 ， 我 们 的 黎 胶 饭 生 产 500 
1 梅 应 思 或 400 条 模 皮 鱼 。 如 朱 各 们 直 特 牛 产 400 
匠 埋 皮 鱼 ,就 没有 想 胶 可 以 生产 榨 皮 鸣 了 ， 反 过 来 


Td , 我 们 钓 时 注 饮 由 来 生产 400 只 菩 直 四 或 300 亲 宴 皮 
i 请， 这 还 得 看 要 花 多 少时 间 来 备 爱 橡胶 ， 无 论 训 何 
罗 实 车 和 拍 直 名 入 了 


2 他. An = 上 > 区 dr pyy /7 
组 全， 如 果 想 计 产品 生 下 个 月 1 架 销 倍 ， 我 { ] 的 产 


昌都 不 会 高 于 400 愉 倍 皮 物 和 300 条 模具 和 鱼 ， 


最 后 ， 每 只 芍 皮 怨 豚 腊 润 录 5 美 元 ， 每 尔 樟 志 主人 
利 负 是 4 闫 元。 这些 信和 点 有 用 己 ? 


第 礼 . 


决策 变量 是 你 能 控制 的 因素 
约束 条 件 不 会 告诉 你 如 何 实现 最 大 利润 ， 它 们 只 告诉 你 在 实现 利润 最 大 
化 的 过 程 中 无 法 做 到 的 事 。 


相反 ， 决 策 变量 却 是 你 能 控制 的 因素 。 你 可 以 选择 生产 多 少 只 橡皮 胸 ， 
多 少 条 橡皮 鱼 ; 在 不 超出 约束 条 件 的 情况 下 ， 你 的 工作 下 是 选择 一 个 组 
合 ， 实 现 最 大 利润 。 


ones/ 


约束 条 件 ! 
动 动脑 
既然 如 此 ， 你 觉得 应 该 怎么 处 理 约束 条 件 和 决策 变量 才能 找 出 实现 
最 大 利润 的 办 法 ? 
你 磁 到 了 一 个 最 优化 问题 


当 你 希望 尽量 多 获得 (或 少 获 得 ) 某 种 东西 ， 而 为 了 实现 这 个 目的 需要 
改变 其 他 一 些 量 的 数值 ， 你 束 碰 到 了 一 个 最 优化 问题 。 


在 本 例 中 ， 你 想 通 过 改变 决策 变量 ， 即 所 生产 的 橡皮 有 鸭 和 橡皮 鱼 的 数 
量 ， 实 现 利 润 最 大 化 。 


哪 一 种 产品 组 合 吓 
项 性 组 合 ? 


株 皮 四 
的 数目 


ode S28 


如何 从 这 里 …… 


然而 ， 为 了 实现 利润 最 大 化 ， 你 必须 遵守 约束 条 件 : 两 种 玩具 的 生产 时 
间 和 橡胶 供应 量 。 


为 了 解决 一 个 最 优化 问题 ， 你 需要 将 决策 变量 、 约 束 条 件 及 硕 望 最 大 化 
的 目标 合并 成 一 个 目标 函数 。 


借助 目标 函数 发 现 目标 


i 目标 函数 则 可 以 帮助 你 找 出 最 
化 结果 。 


你 的 目标 函数 用 数学 方法 来 表达 是 这 个 样子 : 


一 汉学 做 亿 而 顽 疲 用 防 上 月 标 范 走 函 流放 淋 ， 


别 吓 坏 了 ! 整个 等 式 的 意思 是 ， 通 过 将 每 个 决策 变量 乘 以 一 个 约束 条 
件 ， 就 能 算出 可 能 实现 的 最 大 值 *P” (利润 } 。 


约束 条 件 和 决策 变量 在 这 个 等 式 中 共同 作用 ， 形 成 橡 诺 鸭 和 橡皮 鱼 的 利 
润 ， 最 终 形成 你 的 目标 ， 总 利润 。 


多 


橡皮 鸭 利 洞 
任何 最 优化 问题 都 有 一 些 约束 条 件 和 一 个 目标 函数 。 
考 考 你 
你 认为 应 将 哪些 特定 值 作为 约束 条 件 ，“c ”和 “c ,”? 


你 的 目标 档 数 
需要 放 入 目标 画 数 的 约束 条 件 是 每 种 玩具 的 利润 。 
下 面 是 另 一 种 认识 该 数学 画 数 的 方法 。 


(ms 甸 ) 六 mo 


/ 


这 是 来 自治 和 萝 实 的 窜 户 ， 


通过 销售 橡皮 网 和 橡皮 鱼 获 得 的 利润 等 于 每 只 橡皮 网 的 利润 乘 以 橡皮 上 胸 
的 数量 再 加 上 每 条 橡皮 鱼 的 利润 乘 以 橡皮 鱼 的 数量 。 


每 只 橡皮 鸭 。、 。 橡皮 鸡 的 本 每 条 橡皮 鱼 。 ” 橡皮 鱼 
| 的 利润 数 呈 ) 的 利润 的 数 虽 


\ 2 、 
) 人 > 中 
橡皮 身 总 刊 澜 ， 梯 皮 本 蕊 利润 ， 


你 和 争 乏 自己 饰 达到 
网 目标 的 过 内. 


= 总 利润 a 


橡皮 鱼 利润 


) = 利润 


现在 可 以 试 着 做 一 些 产 品 组 合 。 你 可 以 在 等 式 中 填 入 一 些 代表 每 种 产品 
利润 的 数值 ， 以 及 一 些 假定 的 数量 。 


内 录 你 决定 生产 Top 区 的 
丰 物 和 50 条 接 疏 人 镶 ， 这 
共 是 你 娃 符 的 利 阅 。 
j 
大 


( 5 美元 利润。* 100 只 鸭 ) + ( 4 关 元 利润 “50 条 鱼 ) 700 半 元 


这 个 目标 函数 说 明 下 个 月 将 赚 得 700 美 元 的 利润 。 我 们 还 要 用 这 个 目标 函 
数 试 算 许 多 其 他 产品 组 合 。 


趴 |! 其 他 约束 条 件 必 
何 呢 ? 比 史 橡胶 供认 
量 和 生产 时间? 


列 出 有 其 他 约束 条 件 的 产品 组 合 
橡胶 量 和 时 间 量 限制 了 能 够 生产 的 橡皮 鱼 的 数量 ， 着 手 考虑 这 些 约束 条 
件 的 最 好 途径 是 想象 一 些 假定 的 产品 组 合 。 让 我 们 从 时 间 约束 条 件 开 


始 。 


我 们 的 时 间 够 川 孙 生产 400 只 橡皮 了 邮 或 300 
条 询 点 储 ， 这 环 生 看 要 花 多少 午 汪 采 各 及格 
膀 。 无 论 如 何 绸 合 ， 如 采种 让 产品 和 车 下 个 月 
by 『 架 销 告 ， 我 们 区 产量 都 不 空 高 十 400 兵 桥 

芭 力 下 300 妆 栎 应 鱼 。 


这 就 是 他 们 所 说 的 
时 间 钨 隶 条 件 。 


假设 的 产品 组 合 1 可 能 是 : 生产 100 只 橡皮 鸭 和 200 条 橡皮 鱼 。 你 可 以 在 条 
形 图 中 绘制 出 这 一 产品 组 合 (以 及 其 他 两 种 产品 组 合 ) 的 时 间 约 束 条 


这 部 织 人 订 能生 产 交 
攻 皮 中 萝 毁 文献 量 ， 


浴 华 室 下 个 月 欧 生 店 则 问 能 闭关 
400 只 接应 科 


浴 委 砷 下 个 习 的 生产 时 避 能 华 六 
| 300 年 淮 皮 血 


ei 


A/ 
这 共 线 代表 在 论 评 时间 问 Le 


然 生产 区 入 友 色 的 严 重 ， 


产品 组 合 1 并 未 超出 任何 约束 条 件 ， 但 其 他 两 种 组 合 超出 了 约束 条 件 : 产 
品 组 合 2 橡皮 鱼 的 产量 太 高 ， 产 品 组 合 3 橡皮 鸭 的 产量 太 高 。 

通过 这 种 方法 观察 约束 条 件 已 经 是 一 个 进步 ， 但 我 们 需要 更 好 的 观察 方 
法 。 我 们 还 有 更 多 的 约束 条 件 需要 管理 ， 如 果 能 在 一 张 图 形 里 观察 两 种 
约束 条 件 ， 那 就 更 好 了 。 

考 考 你 


你 打算 如 何在 一 张 图 形 里 把 橡皮 胸 和 橡皮 鱼 假 设 产品 组 合 的 约束 条 件 都 
形象 地 表示 出 来 ? 


在 同一 张 图 形 里 绘制 多 种 约束 条 件 


我 们 可 以 把 两 种 时 间 约 束 条 件 画 在 同一 张 图 形 里 ， 图 中 不 再 用 条 形 图 代 
表 每 种 产品 组 合 ， 而 是 用 虚线 代表 。 这 样 的 图 形 能 够 方便 地 同时 表示 两 
种 时 间 约 束 条 件 。 


沿 苑 宝 下 沾 月 的 生产 时 辣 紫 生产 治 铭 宝 下 个 月 的 生产 对 问 角 生 产 
300 茶 盖 皮 加 


从 
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| 

| 

| 

| 

| 

村 | 
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2 
100 200 300 400 500 
玲 皮 主 


我 们 还 可 以 用 这 张 图 形 来 表示 橡胶 量 约束 条 件 。 实 际 上 ， 可 以 将 任何 数 
量 的 约束 条 件 画 在 这 张 图 形 上 ， 然 后 考虑 有 可 能 采用 的 产品 组 合 。 


合理 的 选择 都 出 现在 可 行 区 域 里 

以 Y 轴 表示 橡皮 觅 ， 以 X 轴 表示 橡皮 鱼 ， 这 样 就 能 很 方便 地 看 出 哪 种 产品 
组 合 是 可 行 的 “实际 上 ， 产 品 组 合 所 在 的 由 约束 线 国 成 的 空间 被 称 为 可 
行 区 域 。 


每 当 在 图 形 中 增加 约束 条 件 ， 可 行 区 域 就 会 发 生变 化 ， 你 则 可 以 通过 可 
行 区 域 来 找 出 最 优点 。 


100 200 300 400 500 
稳 应 鱼 


动 动笔 


让 我 们 增加 一 些 其 他 的 约束 条 件 ， 这 些 条 件 表明 ， 按 
量 能 够 生产 的 橡皮 鱼 和 橡皮 鸭 的 数量 。 


这 征 浴盆 到 的 说 法 : 


一 条 格 虐 铺 哆 拘 胶 用 量 比 一 只 的 


昭 给 


AN 一 口 


向 得 好 。 关 于 黎 胶 全 庶 至 :我们 的 槐 胶 够 


定 的 橡胶 


-多 一 占 小 
友 驳 蚁 的 有 琉 用 生产 500 妈 橡皮 和 柏 或 400 条 慷 频 鱼 ， 刘 忆 


我 们 点 的 牛 产 400 条 栓 皮 鱼 ， 声 没有 橙 腑 
可 以 生产 樟 太 恩 了 ， 反 过 来 也 是 一 祥 。 


标 胶 是 含 在 一 起 贷 力 鹏 ， 因 此， 所 
生产 的 格 皮 踢 的 时 饥 茶 限制 所 能 生 
产 鹏 祝 皮 鱼 鹏 数量 ， 


100 200 300 400 500 
橡皮 和 鱼 


画 一 个 点 代表 一 个 产品 组 合 : 这 个 组 合 将 包含 400 条 橡皮 鱼 。 按 
I 如 果 生 产 400 条 橡皮 鱼 ， 就 没有 可 以 用 来 生产 橡皮 鸭 的 
父 O 


画 一 个 点 代表 一 个 产品 组 合 : 这 个 组 合 将 包含 500 只 橡皮 了 鸭 。 如 
果 生 产 500 只 橡皮 鸭 ， 橡 皮 鱼 的 产量 将 为 去。 


条 线 将 这 两 个 点 连 起 来 。 
动 动笔 解答 
新 的 约束 条 件 在 图 上 看 起 来 怎么 样 ? 


画 一 个 点 代表 一 个 产品 组 合 : 这 个 组 合 将 包含 400 条 橡皮 鱼 。 按 
如 末 生 产 400 条 橡皮 鱼 ， 就 没有 可 以 用 来 生产 橡皮 网 的 
父 O 


画 一 个 点 代表 一 个 产品 组 合 : 这 个 组 合 将 包含 500 只 橡皮 鸭 。 如 
有 果 生 产 500 只 橡皮 了 肥 ， 橡 皮 鱼 的 产量 将 为 零 。 


条 线 将 这 两 个 点 连 起 来 。 


问 得 好 。 关 于 橡胶 供应 量 : 我 们 的 橡胶 够 生产 500 只 橡皮 鸭 或 400 条 
橡 度 鱼 。 如 采 我 们 真 的 生产 400 条 橡皮 鱼 ， 束 没有 橡胶 可 以 生产 橡皮 
枫 了 ， 反 过 来 也 是 一 样 。 


”这 一 点 琳 示 生产 500 失 要 
去 哆 ， 但 未 生 产检 应 甸 。 


| 条 线 表 示 介 闻 两 种 情 
| 冤 空 间 驹 值 


| 这 一 点 表示 生产 40D 条 
粮 皮 鱼 ， 旨 不 生产 橡皮 
胸 ， 


| 4 
100 200 300 400 500 
橡皮 鱼 


新 约束 条 件 改变 了 可 行 区 域 
增加 橡胶 量 约束 条 件 后 ， 可 行 区 域 的 形状 变 了 。 


在 增加 约束 条 件 之 前 ， 比 如 ， 你 本 来 能 生产 400 只 橡皮 鸭 和 300 条 橡皮 
鱼 。 但 现在 ， 由 于 橡胶 短缺 ， 这 种 产品 组 合 不 再 可 能 实现 。 


这 些 区 域 中 的 稳 皮 鸭 / 禄 
皮 鱼 组 合 一 个 也 未 能 用 . 


所 南 可 能 东 用 网 产品 组 
合 者 查 出 规 在 这 里 面 . ” 100 200 300 400 500 
机 赤色 


动 动笔 


在 图 上 画 出 篆 种 


人 


100 200 300 400 500 
橡皮 鱼 


下 面 是 几 种 可 能 采用 的 产品 组 合 。 

这 些 组 合 在 可 行 区 域 里 吗 ? 

在 图 上 为 每 种 产品 组 合 画 一 个 点 。 

各 种 产品 组 合 将 带 来 多 少 利润 ? 

用 下 面 的 等 式 来 确定 每 种 产品 组 合 的 利润 。 
100 只 橡皮 胸 和 200 条 橡皮 鱼 利润 : 


300 只 橡皮 鸭 和 250 条 橡皮 鱼 利润 : 


用 目 丰 总 站 确 室 刊 润 。 
\ 
一 (5 绽 元 利 x 网 禾 上 】 + 【《 4 关 元 利润 x 鱼 业 目 ) = 利 亲 


动 动笔 解答 


你 刚才 画 出 了 三 种 橡皮 蝎 和 橡皮 鱼 的 产品 组 合 ， 并 计算 了 利润 。 发 
现 什么 了 ? 


100 孔 接 良 哆 和 
200 条 把 成 鱼 。 


50 点 橡 让 脱 和 


300 襄 拘 朗 二 


利润 : 


衬 了 ， 这 个 产品 组 合 不 在 可 行 区域 里 。 


100 只 橡皮 鸭 和 200 条 橡皮 鱼 。 


=$1300 这 


各 Ex 品 组 合 肯 定 行 得 通 


50 只 橡皮 鸭 和 300 条 橡皮 鱼 。 


利润 : 5 六 : } 
产品 组 合 能 和 得 通 站 养 更 多 


即使 是 可 行 区 域 里 钢 一 小 块 ， 
也 包含 了 不 计 其 数 可 以 系 用 的 
产品 祖 合 ， 你 别 想 让 我 一 个 一 个 


你 不 必 一 一 尝试 。 


为 Microsoft Excel 和 OpenOffice 都 有 称 手 的 小 函数 ， 可 以 麻利 地 解决 最 
优化 问题 。 具 体 用 法 请 看 下 一 页 .……. 


用 电子 表格 实现 最 优化 


Microsoft Excel 和 OpenOtffice 都 有 称 手 而 小 巧 的 函数 择 件 ， 英 文 叫做 
Solver ， 中 文 叫做 求解 器 ， 可 以 矿 利 地 解决 最 优化 问题 。 


只 要 插入 约束 条 件 ， 写 下 目标 函数 ， 其 他 的 算术 工作 束 交 给 Solver 吧 。 请 
看 这 张 电 子 表 格 ， 其 中 有 你 从 浴 金 宝 公司 收 集 到 的 所 有 数据 。 


ww.hesdfirstiabs. combooks/hfda’ 
bathing_frlenags_unilmited. XI 


， A 
_Bathing Friends Uniimited 
MianDfscturing plan for December 
3 ed 
4 Count » 
5 Duck ~ 100 
5 Fish 100 


7 
8 Rubber pellets 
> 


Needed per unt 
1 


13 Total pellets used 

14 Sallat supaly SDOOD 
15 

15 Unit profit 

17 Duck 村 5 
L5 Flsh 李 El 


20 Total protit 
21 


这 个 电子 表格 里 有 几 个 简单 的 公式 。 首 先 ， 这 里 有 一 些 数字 可 以 算出 橡 
胶 需求 量 。 浴 盆 玩 具 的 构成 单位 是 橡胶 片 ， 单 元 格 “B10:B11* 的 公式 用 于 
计算 所 需要 的 橡胶 片 的 数量 。 


第 二 ， 单 元 格 “B20” 的 公式 用 于 将 橡皮 鱼 的 数量 和 橡皮 网 的 数量 分 别 与 相 
应 的 单 件 利润 相 乘 ， 得 出 总 利润 。 


如 时 用 网 是 DpenOZVce， 或 如 果 2xceL 
菜单 中 没有 Soluer， 则 请 看 附 隶 三。 


试 试 看 ， 点 击 Data (数据 ) 菜单 下 的 Solver 按 
钮 ， 结 果 如 何 ? 
动 动笔 
让 我 们 看 一 下 Solver 对 话 框 ， 搞 清楚 它 是 如 何 按照 你 刚 学 会 的 原理 进 
行 工 作 的 。 
用 箭头 画 出 每 个 元 素 在 Solver 对 话 框 中 的 位 置 。 


的 股 和 及 间 
决算 委 览 约束 亲人 御 日 往 


凡 葡 对 到 点名 个 部 本 让 
Sniwxr 蓝 话 可 中 绝 位 要， 


你 认为 目标 函数 会 写 在 哪里 ? 


动 动笔 解答 
天 E“ 
用 箭头 画 出 每 个 元 素 在 Solver 对 话 框 中 的 位 置 。 


2rru 料 目标 苛 沪 目 拌 昔 


天 补 Mdpet Corbet 


演 案 空 量 是 仓 必 下 下 
部 衣 ， 忆 便 符 册 站 和 守 ， 


sw | og 有 Pa 
nit profit 目 祷 疡 表 加 在 这 个 音 承 接 里 
17 Duck $ 5 1 
18 Fish $ 4 区 

OA 


19 
20 Total profit 
21 


一 试 身手 
既然 已 经 定义 好 最 优 模型 ， 现 在 就 该 将 组 成 模型 的 元 素 插 入 Excel， 让 


Solver 来 为 你 完成 这 个 数字 游戏 。 
设 定 你 的 目标 单元 格 ， 使 其 指向 你 的 目标 丽 数 。 


找 出 你 的 决策 变量 ， 将 决策 变量 添加 到 “Changing Cells”( 更 改 单元 


格 ) 空白 处 。 


添加 约束 条 件 。 


单 击 Solve (求解 ) ! 


a 


| x wR 引 ，Y 


” pere Yen beastamaat wri | Om | Wow Vow 囊 -~ 当 三 
二 I Mls SVE 

ft fd Els 和 ri Mam Sa 
| mt a fae PsTe 1 
| 0 HE ESE"m 二 | 
| A 5 D 里 

1 Bathing Friends Unlimited 
， 2 Manufacturing plan for December 

3 

4 Count 

5 Duck 100 

6 'Fish 100 

~ 

8 Rubber pellets 

a Needed per unit Used 

10 Duck 100 10000 

11 Fish 125 12500 

12 

13 Total pellets used 22500 

14 Pellet supply 5D0000 

15 

16 Unit profit 

17 Duck 5 5 


Fish $ 4 


单 击 Solve (求解 ， 结 果 如 何 ? 


Solver 一 气 呵 成 解决 最 优化 问题 


干 得 好 。Solver 一 皮 眼 就 能 为 你 找到 最 优化 解决 方案 。 有 要 是 浴盆 至 


最 大 利润 ， 只 要 生产 400 只 橡 度 鸡 和 80 条 橡皮 鱼 丈 行 了 。 


相 


/DY 


实现 


AL td | ep Ma) Fheod Row 本 
YY 和 | 
一 ,路 和 


Jr we 
-Cream nr 二 < 
0 > 


EE 
1 Bathing Friends Unlimjted 
2 Manufscturing plan For Decenber 


Seivmr 访 兽 了 一 灰 洪 束 值 ， 找 
出 襟 失 情 认 利 泣 阅 租 合 . 


Naeced per unlt Used 
100 


125 


1 3 Total peliees used 50000 


14 pellet suppiy 
1 


闹 起 未 各 胶 也 用 尽 了 。 


待 的 利 泣 ， 


而 且 ， 如 果 你 比较 一 下 Solver 的 计算 结 末 和 你 自己 画 的 图 ， 束 会 发 现 ， 
Solver 所 认为 的 最 精确 点 位 于 可 行 区 域 的 外 限 上 。 


这 是 许 齿 等 
涵 广 要。 


因 起 六 不 钳 。 环 在 将 
偶 说 你 是 万 名 构 包 这 
让 续 号 抑 ? 


100 200 300 
你 皮 和 鱼 


最 好 向 客户 解释 一 下 你 都 忙 了 些 什么 ……. 


动 动笔 


你 该 如 何 辐 客户 解释 目 己 忙 了 些 什么 呢 ? 描述 一 下 这 些 图 形 ， 它 们 
有 什么 意义 ， 它 们 能 得 出 什么 结果 ? 


RE 
i 让 me 
jj 


» 
| 1 Sethiny Frergs Urismytes 
‘Aerotact ring FIs” er Decerme- 


0 
3 


Rubber pelletz 
3 Mevim per unit il 
30 cM 
125 190 
i> 
15 Toml ellsts US 50003 
3 Sellet Susphy 50003 


Unit prnfit 
17 Suk 


1 hh 


动 动笔 解答 
该 怎么 给 客户 解释 你 所 发 现 的 结 采 呢 ? 


受 -一 NT CE ] 、 - 总 
1 竺 嘻 组 合 生产 400 只 外 和 80 条 鱼 


-| bhing friend:_unlimerd TCorm natibility Mode] Nihcrnsofr Ferr rl ~ 


oe mert Pgetayos Spmuine | Doo | Reiew _ View 曼 ~- 严 工 


访 Clea a i Eh Dats psysie 
Ee 


E29 sor Fer 
“3 二 Ranced in De 证 
DatzToet 


Pe € 
Bathing Friends Unlimited 
Manufacturing plan for December 


Count 
Duck 
Fish 


Rubber pellets 

Needed per unit Used 
Duck 100 
Fish 125 


Total pellets used SO000 
Pellet suppl 50000 


Unit profit 


Duck 
Fish 


| 22 


利润 跌 穿 地 板 
你 刚 从 浴盆 宝 得 知 关 于 你 的 分 析 结 果 的 消息 .……. 
发 件 人 : 浴盆 宝 
收 件 人 : Head First 
主题 : 你 的 “分 析 ” 带 来 的 结果 
亲爱 的 分 析 师 : 
坦 日 地 说 ， 我 们 惊 呆 了 。 我 们 所 生产 的 80 条 橡皮 鱼 全 部 卖 光 了 ， 却 
卖 出 了 20 只 橡皮 有 鸭 ， 就 是 说 我 们 只 得 到 了 420 美 元 的 利润 ， 你 应 该 


看 得 出 来 这 比 你 为 我 们 估计 的 2 320 美 元 的 利润 要 低 得 多 。 显 然 ， 
我 们 想 要 比 这 更 好 的 结果 。 


我 们 以 前 从 来 没有 经 历 过 这 样 的 橡皮 了 鸭 销量 ， 所 以 我 们 暂且 不 责怪 
| 能 够 对 所 发 生 的 情况 进行 评 佑 。 你 也 许 也 想 自 行 


致 礼 


还 剩 下 将 多 鸭子 1 


0 
me 


我 想 听 听 你 的 
解释 ， 


你 的 模型 怎么 解释 这 种 情况 ? 


你 的 模型 只 是 描述 了 你 规定 的 情况 
你 的 模型 告诉 你 如 何 实现 最 大 利润 ， 但 仅仅 是 在 你 所 规定 的 约束 条 件 下 


你 的 效 型 屯 近 事实 ， 但 永远 无 污 完 美 ， 有 阿 候 ， 这 种 个 宛 会 导致 问 
题 。 


铺 神 产品 纪 侣 是 好 ? 


用 于 生产 橡皮 
驳 的 时 间 


规 罕 比 这 个 模型 
复 塞 得 多。 1 
但 


但 这 要 紧 吗 ? 
我 们 最 好 记 住 一 位 著名 统计 学 家 说 的 这 段 赖 皮 话 : 
“一 切 模型 都 是 错误 的 ， 但 其 中 一 些 是 有 用 的 。” 


George Box 


你 的 分 析 工 具 不 可 避免 地 会 简化 实际 情况 ， 但 如 果 你 的 假设 和 数据 都 是 
正确 的 ， 那 么 这 些 工 具 就 相当 可 靠 。 


你 的 目标 应 该 是 尽量 创建 最 有 用 的 模型 ， 让 模型 的 不 完美 相对 于 分 析 目 
标 变 得 无 足 轻 重 。 


那 我 该 几何 知道 我 
的 模型 是 否 具有 正 
确 的 假设 呢 ? 


按照 分 析 目 标 校 正 假设 


你 无 法 规定 全 部 假设 条 件 ， 但 只 要 缺失 一 个 重要 的 假设 条 件 ， 分 析 结 果 
就 可 能 毁 掉 。 

你 要 不 停 地 追问 目 己 : 规定 的 假设 条 件 应 该 详尽 到 什么 程度 ” 这 由 分 析 
的 重要 性 来 决定 。 


你 价 分 帖 有 多 重要 ? 


殖 的 假设 应 该 放 R 到 | | 

作 么 程度 ? 写 下 你 认为 自己 所 了 饼 
谁 在 平 ? 别 紧张 了 ， 花 的 每 一 件 于 ， 以 及 你 认 
个 一 两 分 钟 就 行 了 . 为 自己 所 不 了 解 的 和 


动 动笔 
为 了 让 你 的 最 优化 模型 重新 产生 效果 ， 需 要 加 入 哪些 假设 条 件 ? 


动 动笔 解答 
有 没有 一 种 假设 可 以 帮助 你 优化 模型 ? 


世上 没有 傻 问 题 
问 : 万 一 不 靠 谱 的 假设 成 真 ， 也 就 是 人 们 什么 都 乐意 买 ， 结 果 会 怎么 样 
呢 ? 最 优化 方法 会 有 效 吗 ? 
管 : 可 能 会 。 如 果 你 可 以 假设 所 生产 的 每 一 件 产品 都 将 卖 掉 ， 那 么 ， 利 
润 最 大 化 工作 将 主要 围绕 调整 产品 组 合 展开 。 


问 : 可 要 是 我 设 定 一 个 目标 画 数 指出 如 何 让 橡皮 鸭 和 橡皮 鱼 的 产量 最 
大 ， 结 果 会 怎么 样 呢 ? 会 不 会 是 这 样 : 要 是 样 样 东西 都 能 卖 出 去 ， 我 们 
该 算计 的 就 是 如 何 生产 更 多 产品 。 


管 : 这 是 一 个 很 好 的 想法 ， 但 要 记 住 你 有 约束 条 件 。 浴 分 宝 的 联系 人 告 
诉 过 你 ， 能 够 生产 的 橡皮 鸭 和 橡皮 鱼 的 数量 既 受 时 间 的 限制 ， 也 受 橡皮 
供应 量 的 限制 ， 这 些 都 是 你 的 约束 条 件 。 


问 : 最 优化 听 起 来 很 狭义 。 只 有 在 你 有 一 个 想 实 现 最 大 化 的 数值 ， 而 且 
0 才能 使 用 最 优 
这 个 工具 。 


管 : 但 你 可 以 用 开阔 得 多 的 思维 方式 来 思考 最 优化 。 最 优化 思维 方法 的 
最 终 目的 是 得 出 自己 希望 实现 的 目标 ， 然 后 小 心地 鉴别 会 影响 实现 这 个 
目标 的 约束 条 件 。 通 常 ， 约 束 条 件 能 够 以 定量 方式 来 表现 ， 于 是 Solver 之 
类 的 算法 软件 束 能 发 挥 作用 了 。 


问 : 这 么 说 ， 只 要 我 的 问题 能 够 以 定量 方式 来 表示 ，Solver 就 能 为 我 完 
成 优化 工作 。 


管 : ”Solver 可 以 解决 许多 定量 问题 ， 但 Solver 主 要 是 一 个 解决 线性 编程 问 
题 的 工具 ， 优 化 问题 还 有 许多 其 他 类 型 ， 可 以 用 各 种 算法 来 求解 。 要 是 
你 想 多 学 几 招 ， 可 在 网 上 搜索 运算 研究 。 
问 :， 要 是 我 用 最 优化 方法 来 处 理 这 个 新 模型 ， 人 们 就 能 买 到 想 买 的 东西 
吗 ? 


管 : 是 的 ， 前 提 是 我 们 得 知道 如 何 把 人 们 的 喜好 添加 到 最 优化 模型 中 。 
练习 
这 里 有 一 些 橡 皮 鸭 和 橡皮 鱼 的 历史 销售 数据 。 
这 些 信息 可 能 会 告诉 你 为 什么 人 们 看 起 来 没有 兴趣 购买 橡皮 鸭 。 
人 橡皮 鸭 卖 得 


人 


和 


这 举 销 嘲 数 据 是 整个 术 皮 对 生 行业 的 数 记 ， 并 
在 活 儿 本 一 窗 。 所 以 这 是 一 个 很 好 县 信号 ， 告 
许 你 大 们 恶 疙 习 秆 么 ， 以 及 什么 时 候 恕 意 系 ， 


看 出 逐 月 密 化 褒 规 律 了 蚂 3 


这 是 生 近 一 个 月 


奖 ， 一 加 都 糟 十 了 . 


以 A 


emer 


PE 


本 _ 忱 洲 下 载 ! 


米 


EMEENLA SRN) 
(太太 计 人 | 
和 


和 


米 


www. heacfirstiabs.com/books/hfda/ 
historical_sales_data.xis 
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练习 解答 
你 从 这 些 新 数据 中 看 出 什么 了 ? 


2 
Sur 


上 小 月 的 情况 是 人 人 都 想 要 橡皮 鱼 o 


ns) > OE a en nn Pin 己 交 
E ee ee 
v0 < 站 


上 可 A B C D E 


Month Year Fish Ducks Total 


| 


2 | 2000 73 25 95 
SF 2006 1 23 105 
4 AI 2006 ?73 29 102 
5 A 2006 B31 29 11D 
6 M 2506 83 32 115 
7 2006 2 51 105 
8 | 2008 35 39 124 
9 及 2006 32 91 123 
os 2006 25 37 112 
地 :OO 2006 21 95 117 
iN 
每年 - 衣 稍 重 都 巨 幅 下 隆 D 
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这 里 是 一 个 莫 折 点 ， 术 应 
鸭 在 迷 之 前 疾 得 不 错 ， 此 
后 改 光 橡皮 和 鱼 贪 先 ， 


提防 负 相 关 变 量 


我 们 不 知道 为 什么 橡皮 鸭 和 橡皮 鱼 的 销量 看 上 去 南 辕 北 轨 ， 但 可 以 肯定 
它们 是 负 相关 关系 。 一 种 产品 越 多 ， 就 意味 着 另 一 种 产品 越 少 。 


让 节 伐 日 销 生 高 性 期 间 ， 凸 种 多 
史 例 同时 出 昵 上 徒 冲 势 ， 但 未 运 
有 一 种 产品 中 


另 一 种 产品 耿 侨 浊 
有 时候 ， 覆 皮 鱼 的 销 有 时 怪 ， 橡 皮 罗 的 销 Ns | 

量 下 降 ， 检 皮 私 的 销 量 下 降 ， 析 皮 鱼 的 销 但 数据 从 未 显示 这 

呈 上 升 . 旺 上 升 ， 两 种 销量 同时 上 升 ， -一 
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不 要 假定 两 种 变量 是 不 相关 的。 创建 模型 时 ， 务 必要 规定 假设 中 的 各 种 
变量 的 相互 关系 。 


动 动脑 


你 打算 在 你 的 优化 模型 中 加 入 哪 种 约束 条 件 来 体现 橡皮 了 鸭 销量 和 橡 
皮 鱼 销量 之 间 的 负 相 关 关 系 ? 


强化 练习 
ue 用 于 估计 某 个 月 的 橡皮 鸭 和 橡皮 鱼 的 


看 看 这 些 历史 销售 数据 ， 估 计 一 下 下 个 月 的 橡皮 鸭 和 橡皮 鱼 的 
最 高 销量 ， 同 时 假设 下 个 月 的 销量 仍然 保持 前 几 个 月 的 销售 趋势 。 
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楼 应 喧 和 禄 让 鱼 总 向量 
2007 87 
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泣 党 在 ?2 入 过 后 浴衣 括 

屿 朝 合 安富 生 哪 芭 交 亿 ? 

徐 芭 为 工 小 导 哗 


种 殉 贡 会 傅 现 了 


A Cc D 
1 Bathing Friends Unlimited 
2 Manufacturing plan for December 
| 4 Count 这 
| 5 ,Duck 400 
6 Fish 30 
rs 
8 Rubber pellets 
= .5 Needed per unit Used 
> 10 Duck 100 40000 
11 Fish 125 10000 
a 12 
这 闻 元 豆 一 个 各 没 | 13 Total pellets used 50000 
次， 所 心 你 可 以 主 14 Pellet supply 50000 
中 卫衣 衬 弥 持 古 样 ， 5 | | 
\ 16 Unit profit 
Ke 17 Duck $$ 5 
i -| 18 Fish $ 4 
“Es 
“20 Total profit .20 
| 21 : i 


你 入 性 对 盘 这 个 绽 | 
入 本 里 前 为 来 戎 件 ， | 


再 用 一 次 Solver， 这 次 加 上 新 的 约束 条 件 。 无 论 是 橡皮 鸭 还 是 橡 
皮 鱼 ， 你 认为 有 希望 达到 的 最 大 销量 是 多 少 ? 


强化 练习 解答 


你 又 一 次 运行 了 目 己 的 最 优化 模式 ， 这 次 将 橡 度 鸭 和 橡皮 鱼 的 估计 
销量 整合 进来 了 。 你 发 现 什 么 了 ? 


看 看 这 些 历史 销售 数据 ， 估 计 一 下 下 个 月 的 橡皮 鸭 和 橡皮 鱼 的 
最 高 销量 ， 假 设 下 个 月 的 销量 与 前 几 个 月 的 销量 相似 。 


我 们 应 刘 对 1 月 从 的 锁 量 涵 降 
有 有 所 准 音 ， 看 杂 析 应 忱 购 宫 
重 协 起 会 上报 光 ， 


坊 们 可 钙 天 法 基 测 1350 忆 咏 上 
橡 茅 玖 ， 


澄 记 号 和 挡 
度 色 所 销 蝇 


[= 
1 史 摔 销 生 


涪 友 主 凡 宵 苔 
= 


人 我 训 可 铝 无 法 已 出 50 条 
以 上 却 点 血 , 
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再 用 一 次 Solver， 这 次 加 上 新 的 约束 条 件 。 例 如 ， 如 果 你 认为 下 
个 月 售 出 的 橡皮 鱼 的 数量 不 会 超过 50 条 ， 就 一 定 要 加 上 一 个 约束 条 
件 ， 告 诉 Solver， 所 建议 的 橡皮 鱼 的 产量 不 得 超过 50 条 。 


这 是 入 庄 萌 物 亲人 杂 件 ， 


ee un | 
和 ae : | 实际 吉 过 可 能 令吉 Es 
$5-$ [| 上 册 人 访 肛 毕 奇 
Sidnect lo the Ceest ant | 沈 举 孝 走 佬 信 望 ， 
桩 此 聊 ES 
一 
f 
挫 皮 匀 


下 面 是 Solver 给 出 的 结 


提交 TO 和 了。 bsnjjfenalinirriyd Lampeisify Medi- Nyaseat Tc cig 
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Manufacturing 2lan for December 


这 是 于 个 月 网 产品 组合 。 Count 
Duck 


| Fish 


Rubber pellets 


Naeded per unit Used 
Duck 100 15000 
Fish 125 5250 


Tela 
| 4 本 A 
Li Bathing Friends Unlimited 
过 
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村 
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10 


‘13 Total pellets used 21250 


14 Pellet supply S0000 
着 未 你 的 将 琉 疡 权 本 用 天 完 . 
关 示 你 的 和 Unit profit 
7 Duck $ 5 
Fish $ 4 


oO Total profit L 350 | 


sl Shectl, tee? MA 77 
FREE 


] me 0 
— 


释 是 下 个 骨 网 估计 币 说 。 隶 虑 上 从 月 的 估计 


请 离 ， 便 妥 仿 痢 ， 


新 方案 立竿见影 


新 方案 表现 出 色 。 每 一 只 橡皮 鸭 和 橡皮 鱼 都 几乎 是 一 离开 生产 线 吏 立即 
卖 反 了 ， 这 样 一 来 ， 再 没有 积压 的 库存 ， 客 户 完全 有 理由 相信 ， 利 润 最 
大 化 模型 让 他 们 心 想 事 成 。 


将 将 玩 吧 | 


发 让 入: 浴 航 宇 
最 人 入， Head First 
十 题 : 谢 访 |! 


基 受 约 苍 析 师 


你 给 我 们 藤 正 是 孔 们 想 变 的 ， 我 们 对 此 非常 感激 . 
您 个 及 优化 地 址 们 的 利润， 而 慰 让 我 们 的 运营 束 
明 略 、 贵 数 泛 发 。。 你 革 横 型 我 们 肯定 会 直 用 下 
去 谢 论 |! 


浴盆 宝 


另 ， 请 溢 受 这 盆 小 小 区 话 礼 ， 这 是 我 们 永生 约 术 让 
s， 儿 目 过 Head First 特别 荧 。 


千 得 特 ! 再 问 一 自 : 模型 之 所 以 生 数 ， 
是 办 为 你 发 讽 了 橡 寺 网 和 橡皮 鱼 需 串 
量 之 阅 唤 关系 ， 可 要 是 旋 种 关系 发 生 
宣化 怎 各 办? 要 是 人 人们 两 样 都 买 ， 或 
是 一 祥 都 未 买 证 息 么 协 ? 


你 的 假设 立足 于 不 断 变 化 的 实际 情况 
你 所 使 用 的 所 有 数据 都 是 观察 数据 ， 你 无 法 预知 未 来 。 


你 的 模型 现在 是 在 起 作用 ， 但 可 能 会 突然 失灵 。 你 需要 做 好 准备 ， 以 便 
ee 反复 不 断 地 进行 构建 正 是 分 析 师 的 工 


瞧 知 讶 曲 天 感 里 
盆 管 汉 样 吧 ,. 
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要 是 变 生 之 间 遂 关 杀 移 
明天 宜生 变化 ， 体 就 需 


奥 束 模型 准 行 到 个、 
做 好 修改 模型 的 准备 ! 
4 数据 图 形 化 


图 形 让 你 更 精明 


数据 表 远 非 你 所 需 。 


你 的 数据 庞杂 星 深 ， 各 种 变量 让 你 目不暇接 ， 应 付 堆积 如 山 的 电子 表格 
不 只 令 人 厌倦 不 堪 ， 而 且 确 实 浪费 时 间 。 相 反 ， 与 仅仅 使 用 电子 表格 不 
同 ， 一 幅 用 纸 不 多 、 可 棚 如 生 的 清晰 图 像 ， 却 能 让 你 摆 腊 “一 时 障 目 ， 不 
见 泰山 ”的 烦恼 。 


新 军队 需要 优化 网 站 


新 军队 是 一 家 在 线 服装 零售 商 ， 刚 刚 进 行 过 一 次 测试 网 页 外 观 的 实验 : 
在 一 个 月 的 时 间 里 ， 每 一 位 浏览 网 站 的 人 都 随机 浏览 到 下 列 三 种 主页 设 


计 之 


硕 望 这 些 闹 
们 找到 网 站 设计 的 归宿 ， 他 们 想 挑 出 最 优秀 的 风格 页 ， 让 销量 最 大 化 ， 
让 人 们 成 为 网 站 的 回头 客 。 


他 们 让 实验 设计 师 们 一 或 作 气 进行 了 一 系列 测试 ， 


结果 面世 ， 信 息 设 计 师 出 局 


既然 已 经 通过 受 控 的 随机 实验 搞 到 了 大 堆 炫 目的 数据 ， 束 要 想 个 办 法 将 
这 些 数据 的 价值 统统 体现 出 来 。 


于 是 他 们 雇用 了 一 位 信息 设计 牛人 ， 让 他 汇总 这 些 资料 ， 以 便 从 调研 信 
恩 中 刺探 情报 。 岂 料 事 情 并 不 尽 如 人 意 。 


载 们 度 用 揣 售 息 设 升 川 热 了 载 们 一 淮 辽 翅 ， 
根 示 无 一 于 埋 解 越 据 ， 着 由 疙 们 炒 了 位 。 你 
能 恰 床 科 齐 搜 一 此 数据 图 散 。 帮 助 条 们 盾 设 
A 


DD 


一 


pe 


达 们 想 知 首 嘱 一 种 六 哪 一 业 风 失 页 全 
/” 怒 答 天 站 带 来 最 高 曾 站 蜂 、 最 银 济 明 
we 回访 章 ， 
A 
| 


| 
新 生 惟 剂 天 如 1 


你 需要 重新 设计 分 析 图 表 ， 这 可 能 是 一 个 艰难 的 任务 ， 因 为 新 军队 的 实 
验 设计 师 是 一 帮 有 要求 奇 刻 的 精英 ， 他 们 拿 出 了 大 量 实在 的 数据 。 


在 开始 工作 前 ， 让 我 们 先 看 看 打 入 冷 襄 的 设计 ， 知 道 哪 种 图 形 不 管用 也 
许 能 让 我 们 对 某 些 东西 先知 先觉 。 


让 我 们 看 看 这 些 打 入 冷 宫 的 设计 .…… 
前 一 位 信息 设计 师 提交 的 三 份 信息 图 


言 姑 设计 师 将 这 三 份 设计 图 交 给 了 新 军队 。 看 看 这 些 设计 ， 你 有 什么 印 
象 ? 能 看 出 为 什么 客户 难免 无 法 释怀 吗 ? 


法 是 什么 意 拒 ; 


新 军 革 到 欢迎 的 关 
链 站 点 击 。 < 
字 的 大 小 可 能 与 点 
击 数 大 种 头 来 - 
ms 


你 可 vw Et AR notdie .nwt 让 


刘 人 和 大 运 禅 的 球 葵 去 。 ea 
这 张 图 似 导 是 “| 名 者 同和 而 褒 而 盏 该 癌 攻 加 
在 日 雇 短 种 主 各 种 风格 页 的 风 历 该 品 1 这 全 六 
页 疯 访 涪 素 ， 


a 


革 起 未 都 其 隶 彰 . 


ETCTTTTPTS 
= 和 

闻 前 。 这 非 辕 上 a BEISIElElEE 
有 有 售 生 此 天 ， A a -一 恒 癌 目 朋 日 县 局 旧 症 昌 司 昌 
bp 加 三 ee 


记过 县 问 ， 放 此 思 和 弄 非 常 虹 目 .可 
陀 基 项 中 询 是 何 摧 炒 ? 


这 些 图 形 隐 合 哪 些 数据 ? 


复 当 你 观察 一 张 新 图 片 ， 二 上 来 就 访问 “图片 中 隐 合 了 印 此 数据” “你 所 
关心 的 是 数据 的 质量 及 其 含义 ， 你 讨 屎 炫目 的 设计 ， 它 们 会 妨碍 你 作出 
分 析 判 断 。 


J anecy. wisualigalion 
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无 下 都 是 数据 ， 
动 动脑 
你 认为 这 些 图 片 隐 含 着 哪 类 数据 ? 
体现 数据 | 


你 无 法 从 这 些 图 片上 看 出 隐 含 了 哪些 数据 。 要 是 你 是 客户 ， 面 对 连 包 含 
了 哪些 数据 都 说 不 上 来 的 图 片 ， 怎 么 能 指望 作出 有 用 的 判断 呢 ? 


体现 数据 。 创 建 优 秀 数据 图 形 的 第 一 要 务 就 是 促使 客户 谨慎 思考 并 制定 
正确 决策 ， 优 秀 的 数据 分 析 由 始 至 终 都 离 不 开 “ 用 数据 思考 ”。 


而 寂 区 至 欢 卫 的 


se 


这 些 图 形 可 以 与 各 种 
孙 同 鹏 数据 捞 配 ， 
除 逆 设 科 谢 京口 告诉 你 ， 吾 出 
你 无 法 知道 图 形 中 苞 合 的 信息 。 
这 紫 图 形 东 爹 药 新 军队 
网 务 利 问题 带 素 葵 案 .。 


新 军队 的 数据 其 实 不 可 谓 不 丰富 ， 数 据 中 包含 了 各 种 各 样 有 价值 的 资料 
供 你 绘制 图 形 。 


pe 


这 就 蛙 辕 形 中 随 仿 前 东 六 . 
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这 是 前 一 位 设计 师 主动 提供 的 意见 


你 没有 要 求 提供 这 些 信息 ， 可 看 来 已 经 到 手 了 : 出 局 的 信息 设计 师 想 对 
这 个 项 目 说 上 两 句 。 也 许 他 在 不 知 不 觉 地 帮 你 .….…… 


长 件 人 : Head First 
发 性 大， 小 由 限 花 并 乱 数据 设计 公司 
可 复 : 网 站 返 计 优化 项 导 


我 京 心 希 让 你 能 成 为 大 军队 项 目的 闻 运 儿 ， 其 实 我 并 
au 不 总 银 想 沪 这 个 了 赖 日， 困 灶 让 凡 人 人 有志 会 试 试 鲍 还 真 二 


ee E:3 
3 


人 个- 


训 焉 种 - 句 ， 他们 束 掺 超 多 ， 实 际 上 中 本 多 了 ， 等 你 一 1 
狗 子 礼 进去 就 如 白 我 约 总 轩 了 。 我 说 ， 纵 我 一 共 精 三 的 
云 格 ， 我 就 能 为 次 丰 西 一 缀 起 图 。 可 这 些 家 居 死 ? 化 让 


奔 出 宗 的 数据 多 行 让 生 放 自己 都 不 知道 该 把 么 兴 。 


信 们 会 对 状 你 前 了 有 这 上 二 数据 为 他 们 吾 图 ， 我 只 瑟 了 几 
炉 拉 宕 点 次 图 ， 我 知 关 并 非 人 入 都 欣 党 ， 可 : 浅 要 告诉 
泉 ， 上 化 们 并 的 活 比 登 天 还 夷 一 一 北 介 想 大 到 一 苇 ， 可 流 


并 太 总 辣 
ri 全 | 一 切 也 示 免 太 多 了 。 


动 动笔 


看 来 ， 小 唐 认 为 ， 对 于 力图 设计 出 优秀 数据 图 形 的 人 来 说 ， 数 据 过 
多 曾 是 外 问题 “你 闪 得 从 是 不 是 在 花 吉 所 清 ?为 件 


动 动笔 解答 
小 唐 说 数据 太 多 会 给 绘制 优秀 图 形 市 来 极 大 困难 ， 有 道理 吗 ? 


庞杂 的 数据 很 容易 让 人 抓 狂 。 


号 轩 时 


ot 


ALL_ 这 更 有 从 来 料 
将 对 估 有 同 。 \ 


不 过 要 学 会 处 理 貌 似 庞 杂 的 数据 同样 并 非 难事 。 


要 是 你 手头 数据 庞杂 ， 而 且 对 于 如 何 处 理 这 些 数据 没有 把 握 ， 这 时 只 
人 
， 励 伯 其 他 。 


器 ,问题 并 永 变 于 数据 太 多 ， 问 题 是 
要 搞 清 癸 避 何 让 图 形 寺 丽 出 色 ， 


真 的 吗 ? 你 认为 作为 数据 分 析 师 ， 你 的 工作 就 是 给 客户 带 来 美感 
吗 1 


让 数据 变 美观 也 不 是 你 要 解决 的 问题 


只 要 数据 图 形 能 解决 客户 的 问题 ， 不 管 十 精美 扎 腿 还 古 平平 无 奇 ， 痢 会 
对 客户 有 吸引 力 。 


正如 进行 任何 优秀 的 数据 分 析 一 样 ， 制 作 优秀 的 数据 图 形 也 需要 明确 起 


oO 
2 AN 


动 动脑 
如 何 通 过 一 大 堆 充 满 变数 的 数据 来 评估 你 的 目标 ? 究竟 从 哪里 开始 


呢 ? 


数据 图 形 化 的 根本 在 于 正确 比较 


为 了 形成 优秀 的 图 形 ， 首 和 完 要 明确 能 够 实现 客户 目标 的 基本 比较 对 象 。 
现在 看 一 看 客户 最 重要 的 电子 表格 : 


: ss 

[一 琅 一 必 风 桶 页 访 寺 给 司 计 蒂 “、 
本 最 出 党 站 辣 ， 最 东兴 辣 牧 

人 、 同 以 在 磁 高 田 访 车 ， 由 


n ‘ 5 
Timeons se Pepevews Revwrvisis 9 
136 31 


尽管 新 军队 的 数据 不 止 这 三 张 表格 ， 但 通过 对 这 三 张 表 进行 比较 ， 却 能 
够 直接 回答 他 们 想 知 道 的 答案 。 让 我 们 马上 壬 试 比较 .….…… 


动 动笔 
0 这 张 描 述 主页 1 访问 结果 的 统计 图 ，X 轴 上 的 点 代表 访问 用 


用 电子 表格 的 求 平均 值 公式 (AVG) 算出 主页 1 的 平均 营业 额 和 浏览 
时 间 数 值 ， 在 图 上 用 水 平和 垂直 线条 表示 这 些 数值 。 


米 


米 _ 快 米 下 载 / 
米 


www.headfirstlabs.com/books/hftda/ 
hfda_ch04 home pagel.csv 


这 个 数 值 代表 新 军队 硕 坚 看 到 的 每 位 用 疡 赣 竟 蝎 网 站 时 间 


AAA 主页 1 


这 本 赦 值 代表 新 军队 
网 站 和 访问 用 户 讽 人 平 
场 消 划 金额 目标， 
你 所 看 到 的 结果 与 目标 营业 收入 和 浏览 时 间 相 比 怎样 ? 


CE 


EE 


动 动笔 解答 
如 何 用 图 形 表 示 主 页 1 的 营业 收入 和 浏览 时 间 ? 


你 所 看 到 的 结果 与 目标 营业 收入 和 浏览 时 间 相 比 怎样 ? 


你 的 图 形 已 经 比 打 入 冷 宫 的 图 形 更 有 用 


现在 看 到 的 是 一 张 不 错 的 图 形 ， 这 肯定 对 你 的 客户 有 用 。 这 是 一 个 优秀 
的 数据 图 形 实例 ， 因 为 它 .…… 


a 后 示 了 数据 i 
s 作 了 启 瞧 议 比 符 > 


ea 反 示 了 岁 个 变 叶 龙 ” 


: 人 证 


各 种 沉 柯 页 的 页 面 入 问 告 赵 


一 这 这 轴 和 月 则 是 一 才气 局 


这 是 万 种 图 形 ? 似 这 
什么 腿 场 ? 


使 用 散 氮 图 探索 原因 


散 点 图 是 探索 性 数据 分 析 的 奇妙 工具 ， 统 计 学 家 用 这 个 术语 描述 在 一 组 
数据 中 寻找 一 些 假设 条 件 进 行 测 试 的 活动 。 


分 析 师 喜欢 用 散 点 图 发 现 因 果 关 系 ， 即 一 个 变量 影响 另 一 个 变量 的 关 
系 。 通 常用 散 点 图 的 X 轴 代表 自 变量 (我 们 假想 为 原因 的 变量 ， 用 Y 轴 
代表 应 变量 (我 们 假想 为 结果 的 变量 ) 。 


-一 


你 不 必 论 证 自 变量 是 影响 应 变量 的 原因 ， 因 为 我 们 终归 是 在 探索 数据 ， 
而 原因 正 是 我 们 的 探索 目标 。 


秒 补 了， 可 还 有 好 多 数据 呢 ， 变 
量 凶 止 十 个 ， 要 进行 网 比 萎 也 远 
杀 止 这 些 。 我们 能 孙 能 多 天 一 些 
变量 ， 而 未 是 仅仅 两 个 ? 


最 优秀 的 图 形 都 是 多 元 图 形 


如 采 一 个 图 形 能 对 三 个 以 上 变量 进行 比较 ， 这 张 图形 就 是 多 元 图 形 ， 再 
加 上 有 效 的 比较 是 数据 分 析 的 基础 ， 于 是 尽量 让 图 形 多 元 化 最 有 可 能 促 
成 最 有 效 的 比较 ， 在 本 例 中 ， 你 拥有 丰富 的 变量 。 


pe 从 拥有 年 窗 护 记 量 ， 


waswN- 
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少 机 会 放行 各 种 出 稚 ! 一 
动 动脑 
你 如 何 令 自己 创建 的 散 点 图 多 元 化 ? 


同时 展示 多 张 图 形 ， 体 现 更 多 变量 


和 
一 个 实例 。 


所 有 变量 都 绘制 在 这 些 图 形 中 ， 这 样 束 可 以 一 举 进行 大 量 比 较 。 由 于 新 
军队 真正 关心 的 是 营业 额 的 比较 情况 ， 所 以 ， 我 们 只 要 继续 观察 浏览 时 
间 、 页 面 浏 览 次 数 以 及 回访 率 与 营业 额 的 关系 。 
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动 动笔 
你 刚才 已 经 创建 了 一 张 相 当 复 洒 的 图 形 ， 观 察 一 下 这 张 图 ， 想 一 
想 ， 对 于 新 军队 决定 进行 测试 的 各 种 风格 页 ， 这 张 图 说 明了 什么 ? 


你 认为 这 张 图 能 有 效 地 体现 数据 吗 ? 为 什么 ? 


注意 看 这 些 点 ， 你 可 以 看 出 主页 2 上 的 点 的 分 布 情况 与 其 他 两 种 主页 
的 情况 大 不 一 样 。 你 认为 主页 2 有 什么 蹊跷 ? 


你 认为 这 三 种 风格 页 中 哪 一 种 最 能 有 效 地 让 新 军队 关心 的 变量 实现 
最 大 值 ? 为 什么 ? 


动 动笔 解答 
新 图 形 有 助 于 你 了 解 风格 页 的 比较 性 能 吗 ? 
你 认为 这 张 图 能 有 效 地 体现 数据 吗 ? 为 什么 ? 


注意 看 这 些 点 ， 你 可 以 看 出 主页 2 上 的 点 的 分 布 情况 与 其 他 两 种 主页 


的 情况 迎 然 不 同 。 
你 认为 主页 2 有 什么 嘴 蹊 ? 


E 来 主页 2 表现 很 差 ， 与 其 他 风格 页 相 比 ， 主 页 2 带 来 的 营业 额 不 
多 ， 浏 览 时 间 和 浏览 页 数 也 同样 糟粕 。 每 一 位 网 站 用 户 的 统计 值 才 


你 认为 这 三 种 风格 页 中 哪 一 种 最 能 有 效 地 让 新 军队 关心 的 变量 实现 
最 大 值 ? 为 什么 ? 


世上 没有 僚 问 题 
问 : 我 该 用 哪 种 软件 工具 来 创建 这 类 图 形 ? 
答 : 这 些 专业 图 形 是 用 一 个 叫做 R 的 统计 数据 分 析 程序 创建 的 ， 本 书后 


续 章 和 将 对 此 详 加 叙述 。 不 过 不 必 拘 泥 于 此 ， 统 计 行 业 还 有 许多 可 供 使 
用 的 网 表 制作 工具 ， 例 如 可 以 使 用 Adobe Illustrator 绘 图 程序 ， 甚 至 可 以 上 自 
己 画 图 实现 软件 工具 实现 不 了 的 图 形 设想 。 


问 : ”Excel 和 OpenOffice 可 以 用 吗 ? 它们 也 有 绘图 工具 。 


答 : 可 以 ， 说 得 不 错 。 它 们 有 一 些 绘图 工具 ， 但 数量 有 限 ， 你 也 许 能 够 
设法 在 电子 表格 中 创建 一 张 这 样 的 图 表 ， 但 钨 怕 得 打 一 场 硬 战 。 


问 :” 听 起 来 你 对 电子 表格 数据 制图 不 是 很 热心 ? 


管 : 许多 严谨 的 数据 分 析 师 习惯 于 使 用 电子 表格 程序 进行 基本 计算 和 列 
表 ， 却 不 会 幻想 将 电子 表格 程序 作为 制图 工具 ， 这 样 做 会 让 人 伤 透 脑 
筋 : 使 用 电子 表格 程序 只 能 创建 屈指 可 数 的 几 种 图 表 ， 不 仅 如 此 ， 程 序 
往往 还 会 勉强 你 设 定 决策 格式 ， 而 你 本 不 打算 如 此 。 并 不 是 你 不 能 用 电 
子 表格 程序 绘制 优秀 的 数据 岁 形 ， 而 是 这 样 做 会 邦 厅 烦 上 号 ， 要 是 学 会 
使 用 R 程序 之 类 ， 了 束 不 会 有 那么 多 的 麻烦 。 


问 : ”要 是 我 正在 寻找 制图 灵感 ， 电 子 表 格 菜 单 会 不 会 让 我 如 愿 以 偿 ? 


答 :， 办 不 到 ， 办 不 到 ! 如 果 你 要 寻找 设计 灵感 ， 可 能 需要 看 几 本 Edward 
Tufte 写 的 书 ， 他 是 数据 图 形 化 方面 的 最 高 权威 ， 他 的 著作 宛如 一 座 奇 妙 
的 数据 图 形 化 博物 馆 ， 数 据 图 形 化 有 时 被 他 称 为 认 知 艺术 。 


问 : 和 杂志、 报纸 、 期 刊 文章 怎么 样 ? 

管 : 培养 对 出 版 物 数据 图 形 质量 的 敏感 度 是 个 不 错 的 办 法 ， 有 些 人 比 别 
人 更 擅长 设计 启发 性 图 形 ， 如 采 长 期 关注 出 版 物 ， 和 赁 感觉 束 能 发 现 技 高 
一 筹 的 作品 。 民 好 的 起 步 方法 是 数 一 数 出 版 物 图 形 中 的 变量 ， 只 要 一 幅 
图 中 的 变量 达到 三 个 以 上 ， 出 版 物 束 更 有 可 能 提供 知性 的 比较 ， 效 采 比 
只 有 一 个 变量 的 图 好 。 

问 : 我 该 怎么 看 待 那 些 被 复杂 化 、 艺 术 化 但 无 助 于 分 析 的 数据 图 形 ? 
管 : 说 到 利用 计算 机 绘制 新 颖 的 图 形 ， 这 个 时 代 并 不 乏 激情 与 灵气 ， 有 
些 图 形 能 够 成 为 深度 数据 分 析 的 推动 力 ， 有 些 只 是 让 人 过 过 眼 疗 。 数 据 
艺术 这 一 说 本 身 无 可 厚 非 ， 只是， 除非 有 助 于 更 好 地 理解 隐 含 的 数据 ， 
否则 请 别 将 数据 忆 术 与 数据 分 析 混 为 一 谈 。 

问 : ”这么 说 有 些 东西 能 让 人 过 眼 净 但 对 分 析 并 无 启发 ， 反 过 来 呢 ? 


管 : 这 就 看 你 自己 了 。 不 过 ， 要 是 你 在 分 析 中 遇 到 了 举 棋 不 定 的 事情 ， 
而 图 形 却 对 此 有 所 局 发 ， 那 么 很 难 想象 这 幅 图 形 会 让 你 看 着 不 顺眼 | 


让 我 们 看 看 客户 的 想法 .……. 
图 形 很 棒 ， 但 网 站 掌 门 人 仍 不 满意 


你 的 客户 ， 也 吏 是 新 军队 网 站 掌 门 人 ， 刚 刚 给 你 发 了 一 封 邮件 ， 对 你 的 
工作 评点 了 一 番 。 让 我 们 看 看 他 说 了 些 什么 .…… 


收 件 人 : Head First 
发 忻 人 : 新 军队 网 站 党 门人 
回复 : ”我 对 数据 的 解释 


全 | 你 鲍 慨 记 很 先天， 我 们 级 谈 兴 房 天 那 位 老兄 : 
而 与 称 合 全。 个 刻 谈 湛 ， 为 秆 必 评点 3 世家 现 


后 埋 ， 可 葡 汶 然 焉 筑 洛 为 什 <_ 
人 认为 有 两 点 : 弟 一 ， 


他 想 知道 的 是 因果 关系 。 

对 于 他 来 说 ， 搞 清楚 哪 种 设计 风格 有 成 效 只 是 暂 告 一 个 段落 ; 为 了 让 网 

人 
NM 


男 外 ， 由 于 他 是 客户 ， 我 们 肯定 需要 论述 他 所 提出 的 理论 。 


优秀 的 图 形 设计 有 助 于 思考 的 原因 
你 和 客户 青睐 的 模型 通常 都 会 与 数据 吻合 。 


yg 


设 个 机 型 代表 停 表 峙 壤 
痕 设 惑 对 数据 网 解释 . 


as 


a Rs 
当 莽 ， 扫 得 兄 合 … -这 就 旺 
它 看 起 闲 量 合 情 皖 竟 原 因 。 


但 免不了 会 有 其 他 可 能 性 ， 尤 其 是 在 大 家 愿意 插 上 想像 的 翅膀 寻求 解释 
的 时 候 。 其 他 模型 情况 如 何 呢 ? 


这 个 概 副 丰 唤 含 | 


天 

1 

| 
表面 上 入 四 要 型 站 有 有 示 同 六 形状 ， 肯 因 苗 数据 不 艰 . 那 _/ 
而 它 完 全 能 娩 容 约 析 各 数据。 包 模 型 驶 有 假 。 


当 你 描述 你 的 数据 图 形 时 ， 需 要 论述 可 相互 换 用 的 两 种 因果 模型 或 图 
解 。 能 完成 这 个 任务 说 明 你 非常 公正 : 让 客户 知道 你 不 仅 会 展示 自己 最 
I 还 会 彻头彻尾 地 考虑 目 己 提 出 的 原理 中 可 能 存在 的 问题 
实验 设计 师 出 声 了 

实验 设计 师 知 道 了 网 站 掌 门 人 的 理论 ， 他 们 发 来 了 目 己 的 想法 ， 也 许 他 
们 的 意见 让 你 能 够 评估 一 下 网 站 掌 门 人 对 “为 什么 有 的 主页 表现 比 别 的 主 
页 好 ”的 假设 解释 。 


| 收 忻 人 : Head First 
发 件 人 : 新 军队 实验 设计 师 


回复 : ”老大 的 想法 法 半 灾 验证 计 师 们 站 
出 认 沪 页 区 如 天 这 度 有 关系 Tu7 可 能 会 。 我 入 第 一 个 假设 的 看 让 ， 
还 没 当 法 宇 数 把 进 行 碎 计 ， 伍 基 我 位 仇 的 列 试 
表 上 旷 ， 证 页 ? 尽 浑 度 笛 快 揭 ， 其 次 主页 3， 总 斥 
主页 1。 因此， 凶 完 全 可 第 是 对 为 - 


< 一 -一 


盏 十 色 油 ， 臣 们 籽 杯 娠 ， 主 不 3 的 色调 中 对 
冷 六 ， 其 次 J 页 2， 及 三 三 下 « 油 沁 到 组 入 们 


佚 及 忘 千差万别 ， 仁 没 夺 件 名 一 种 结 吓 让 我 测 


真 工 入 驮 : 


这 是 便衣 对 第 工 个 乌拉 抽 瑟 四。 各 们 最 炮 丫 兰 数 据 ， 疾 是 确定 还 


是 知 定 这 起 乱 改 . 


动 动笔 

让 我 们 看 看 数据 ， 看 老大 的 假设 是 否 成 立 。 
这 些 数据 与 某 个 假设 条 件 吻 合 吗 ? 

假设 1: 网 页 速度 是 主页 3 表现 最 佳 的 原因 。 


LE 


I 


LE 


LE 


LE 


假设 2: 轻松 的 冷色 调 是 主页 3 表现 最 佳 的 原因 。 


人 


和 
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阅 站 部门 人 的 假设 与 
[一 这 些 数 据 哆 合 吗 ? 
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动 动笔 解答 
你 发 现 网 站 掌 门 人 的 假设 与 数据 的 吻合 程度 怎样 ? 
假设 1: 网 页 速度 是 主页 3 表现 最 佳 的 原因 。 


页 但 页 这 度 a 各 ee 成 功 卖 现 


假设 2: 轻松 的 冷色 调 是 主页 3 表现 最 佳 的 原因 。 
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实验 设计 师 们 有 目 己 的 假设 


他 们 已 经 有 机 会 看 过 你 的 散 点 图 ， 给 你 发 来 了 他 们 对 事情 的 看 法 。 这 些 
人 都 是 数据 精英 ， 他 们 的 假设 必定 恰当 。 


收 件 人 : Head First 
发 件 人 ;， 新 军队 实验 设计 师 
回复 ; ”我 们 不 知道 为 什么 主页 3 表现 更 抢眼 


听 说 主 下 3 是 总 如 的 衬 页 我们 对 心 其 为 妆 研 ， 但 我 们 的 站 
丰 因 ， 计 知道 人 们 总 怎么 丽 芳 2? 王 辽 事情 估计 栏 起 加 
是 案 验 设 和 加 区 吞 下 业 估 芝 检 三 击 改 进 ， 我 们 才 da He 河 谤 
小 pe TR 回 冯 ， 能 喜 量 多 为 道人 东亚 还 号 良 三 高 思 的 。 


几 种 风格 页 展 实 在 各 个 方 可 部 泣 站 不 后 ， 逐 全 分 闪 折 种 特 改 起 
的 支 现 基 好 革 件 粹 手 角 市， 以 后 我 们 会 只 主 天 3 对 一 系列 妇 节 进 ; 

车 汇 ， 这 应 说 尝 让 翅 们 沪 消 耕 过 锌 外 形 、 了 体 竺 等 出 素 对 司 户 乞 
东阳 可 能 是 守 件 和 页 面 韦 局， 习 革 成 问 有 形 响 。 


不 这， 我 们 狼 栋 市 可 个 忆 泰 ， 其 一 ， 主 页 3 跨 详 一 日 了 熊 ， 我 们 习 

用 交 布 届 和 字体 往 养 张 ， 其 二 ， 下 而 后 次 涂 ， 下 出 3 次 上 永 廊 就 能 五 

到 姑 浪 注 日 节 商 品 ， 而 主 血 1 则 寄 雪 点 汕 7 次 以 上 分 能 这 到 令 入 的 

由 可 钙 是 再 而 县 决 ， eS 东 再 。 沪 两 个 因素 者 可 能 影 明 营 到 收入 ， 便 着 专 埋 一 未 计 行 浊 语 
Ne 才 峰 确证 无 各 : 


动 动笔 
根据 所 了 解 到 的 信息 ， 你 想 同 客户 提供 哪些 网 站 战略 建议 ? 


动 动笔 解答 


根据 你 所 绘制 的 数据 图 形 和 你 评估 下 来 解释 得 通 的 理论 ， 你 想 建 议 
客户 如 何 处 理 网 站 ? 


客户 欣赏 你 的 工作 


你 创建 了 一 个 优秀 的 图 形 ， 新 军队 可 以 在 此 图 形 中 迅速 同步 评估 所 有 的 


测试 变量 。 


你 根据 不 同 的 假设 条 件 对 图 形 进行 了 评 佑 ， 为 客户 提出 了 出 色 的 后 期 测 


试 建议 。 


磋 常 酷 | 我 同意 你 对 假设 条 件 的 评估 ,也 
同意 你 明 建 祝 ， 我 正在 整个 网 站 上 应 用 主 
页 3. 位 务 裔 功 完成 了 . 


订单 从 四 面 八方 滚 深 而 来 ! 


由 于 网 站 面目 一 新 ， 访 问 量 今 非 萌 比 ， 一 派 紧 采 。 你 的 实验 结果 图 让 客 
户 了 解 到 需要 了 人 解 的 东西 ， 网 站 因而 粉饰 一 新 。 


新 平 队 答 你 延 东 这 旦 对 搁 肝 恋人 乔 总 . 


A 
一 节 多 这 出 队 节 “交合 ”你 ， 


更 妙 的 是 ， 新 军队 着 手 展 开 持久 的 实验 程序 对 痢 设 计 进 行 提 升 ， 他 们 用 
你 的 图 形 考察 实验 结 有 末 。 好 样 的 ! 


新 军队 的 网 站 优化 奏效 了 . 


CC 


~ 


5 假设 检验 
假设 并 非 如 此 


了 我 忽 到 了 一 条 4500 千 克 重 网 带鱼 ， 
谍 们 未 得 未 放 了 它 ， 要 示 船 就 议 
了 …… 什 么 7 好 吧 ， 我 倒 要 看 看 你 
怎么 证 明 我 错 了 | 


世事 纷 纸 ， 真 假 难 辩 。 


人 们 需要 用 庞杂 多 变 的 数据 预测 未 来 ， 然 而 免不了 剪 不 断 ， 理 还 乱 。 正 
因 如 此 ， 分 析 师 不 会 简单 听信 浮 于 表面 的 解释 ， 也 不 会 想当然 地 认可 这 
些 解释 的 真实 性 : 通过 数据 分 析 的 仔细 椎 理 ， 分 析 师 能 够 民间 细致 地 评 
佑 大 量 备 选 答案 ， 然 后 将 手头 的 一 切 信息 整合 到 各 种 模型 中 。 接 下 来 要 
学 的 证 伪 法 即 是 一 种 切实 有 效 的 非 直 觉 方法 。 


给 我 来 块 < 皮肤 .…… 


你 来 到 “ 电 肤 ”公司 ， 这 是 一 家 手机 “皮肤 ”制造 商 ， 你 的 任务 是 弄 清 楚 手 机 
巨头 PodPhone 下 个 月 是 否 要 出 一 款 新 手机 ， 诸 多 商机 苞 而 未 决 。 


我 的 生活 交 满 活力 ， 我 的 Paaphonz \ 
党 是 了 矛 址 的 应 肘 ， 一 初 都 病 电 < 


NS i 


of 


PodPhone 公 司 即 将 发 布 一 款 手 机 ， 时 间 待 定 ， 电 肤 必须 在 手机 发 布 之 前 
的 一 个 月 开始 生产 手机 皮肤 ， 才 能 赶 上 手机 销售 第 一 波 。 


要 是 电 肤 不 备 妥 手机 皮肤 迎接 产品 发 布 ， 竞 争 对 手 将 抢先 下 手 占领 市 


场 ; 要 是 电 肤 生产 了 手机 皮肤 而 PodPhone 却 不 发 布 产 品 ， 投 在 手机 皮肤 
上 的 钱 就 会 打 水 漂 ， 天 知道 这 些 手 机 皮肤 哪 年 哪 月 才能 开 卖 啊 ! 


我 们 何 时 开始 生产 新 手机 皮肤 ? 


首当其冲 的 问题 是 何 时 开始 生产 手机 皮肤 新 系列 。 


电 肤 是 否 生产 手机 皮肤 ? 


这 位 辊 是 称 肥 鹤 户 ， 
电 诸 首 斋 执 本 定 ， 


窜 E 性 DPhomsz 发 专 
新 产品 时 ， 我 们 已 
大 下 产 出 手 规 上 襄 对. 


几 宁 冯 市 其 过 而 虫 酸 级 尘 开 
验 革 产 ， 禾 如 万 事 丈 二 


PodPhone 总 是 出 人 意料 地 发 布 产品 ， 因 此 电 肤 必须 搞 清 楚 发 布 时 间 。 如 
果 电 肤 能 在 PodPhone 发 布 之 前 的 一 个 月 开始 生产 ， 那 么 就 万 事 大 吉 了 。 
你 能 帮助 电 肤 吗 ? 


动 动笔 
哪 一 类 数据 或 信息 能 帮助 你 着 手 分 析 这 个 问题 ? 


动 动笔 解答 
着 手工 作 前 需要 了 解 哪些 信息 ? 


PodPhone 非 常 在 意 产 品 是 否 一 鸣 怀 人 ， 他 们 完全 不 希望 别人 得 知 他 们 的 
意图 。 所 以 ， 绝 不 能 只 看 公开 数据 束 等 着 “他 们 何 时 发 布 PodPhone” 的 答 
案 从 天 而 降 。 


供 配件 制造 
商 参 考 的 
手机 规格 

带 未 太 大 囊 且 : 消费 者 新 闻 


政府 档案 


公共 经 济 数据 


配件 制造 商 规格 


宽 争 对 手 产 品 线 


PodPhone 新 闻 报 道 


你 需要 和 弄 清楚 如 何 将 手头 的 数据 与 自己 假设 的 PodPhone 新 手机 的 发 布 时 
间 进 行 比较 。 不 过 ， 首 移 让 我 们 看 看 手头 关于 PodPhone 的 主要 信息 .……. 


我 们 得 知 的 全 部 信息 


这 里 有 些 关 于 产品 发 布 的 零星 信息 ， 电 肤 把 这 些 信息 拼 恋 在 一 起 。 有 
些 是 公开 信息 ， 有 些 是 机 蜜 信息， 有 些 只 是 传言 而 已 。 


。 PodPhc 9 襄 抽 行 
PeePhone 夺 靳 产 蜗 乔 竞 争 对 手 的 手 宫 相 2dPhene 首 高 执行 


二 的 报 半 超过 所 有 册 ， 个 人 的 手机 改 能 ei 
其 他 公 己 © 朱 太 二 改 击 ， 人 -信人 三 


一 窜 竟 人 学 对 手 峡 冉 发 既 沪 可 上 蛤 ， 消 费 误 支 招 管 ，PedPheone 首 
布 了 一 葡 性 能 优 工 的 已 塔 秦 ， 止 足 夹 于 机 卉 视 行 窒 衣 下 一 年 以 
新 于 机 。 的 好 上 时 人 锯 。 内 下 会 发 布 新 严 吕 。 


说 心 看 客 ， 谍 们 并 站 认 藻 他 从 这 发 叫 新 产品 ， 半 
区 他 们 广 六 品 绕 张 常 强势， 他 们 会 堵 占 系 胜 蚀 直 ， 
起 这 条 产品 和 慌 在 扑 ， 
眠 现在 开 眙 ， 我 们 记 访 在 几 个 目 向 靳 手 … 


动 动脑 
根据 上 面 这 些 要 考虑 的 证 据 ， 你 认为 她 的 假设 有 道理 吗 ? 


电 肤 的 分 析 与 数据 相符 吗 ? 


首 忆 执行 官 站 在 PodPhone 的 角度 简单 扼要 地 介绍 了 一 步 步 思 路 ， 我 们 用 
图 解 方式 记述 她 的 说 法 : 


这 旺 电 歧 前 斋 执 行 官 玫 济 
苗 PonPhore 枫 过 东 ， 
1 
es 本 | 
GrnDne 晶 再 种 之 
跨 胜 衣 市 


这 作对 办 要 注 与 售 酌 证 撕 牛 蔡 。 
SN 


TB7 
> ih 


这 个 模型 ， 或 者 说 这 个 假设 ,与 证 据 相 符 ， 没 有 证 据 证 明 这 个 模型 是 错 
误 的 ， 当 然 ， 也 没有 证 据 强 有 力 地 证 明 这 个 模型 是 正确 的 。 


信里 揭 们 息 与 电 胀 的 假设 该 才 耶 摧 ， 


ParFhana 


避 上 的 控盘 本 二 所 


六 “一 黑 性 局 导 共 
Fl 订 ! 二 | '» 


推理 看 来 很 严谨 .……… 
电 肤 得 到 了 机 密 《战略 备 态 录 》 


a 注意 着 PodPhone 的 动静 ， 于 是 有 了 时 就 有 这 样 的 资料 送 上 
| o 


这 份 《 战 略 备忘录 》 概 括 了 PodPhone 计 算 产 品 发 布 日 期 时 所 考虑 的 大 量 
因素 ， 比 电 肤 首席 执行 官 想 象 的 要 细致 得 多 。 


PodPhone 手 机 发 布 战略 备忘录 
我 们 希望 确定 产品 发 布 时 间 ， 以 名 实现 最 大 钳 屁 : 打 中 
谨 音 村 等、 为 此 各 刘 芍 点 入 神 轩 米 。 


首先 关注 的 兹 经 济 ， 至 息 经 入 上 行 ; 盆 时 全 请 费 者 增加 支 
出， 经 济 下 行 虽 会 折 制 消费 攻 支 十 ， 消 糙 支出 起 手机 
销 暴 的 号 -来源 ， 己 基 ， 我 税 弓 克 第 灶 于 争夺 的 是 同一 
大 眶 只 ， 我 们 多 案 一 郁 , 悠 们 就 少 过 一 部 ， 贷 们 少 世 一 
兴 ， 必 位 就 多 玄 - .篇 和 


一 一 一 一 一 一 >> | -能 我 们 椒 愿 态 俱 对 于 有 条 于 村 上 市 的 时 贸 发 布 奖 产品 ， 
在 守 于 由 同类 者 新 癌 叶 发 而 关 产 此 会 让 我 们 让 冬 宽 吉 销 侧 。 
这 侍 备 忘 录 鱼 告诉 永 PodPhene 
观 交 市 时 间 吗 # 


翡 宙 的 世 点 商 和 内 部 开发 出 队 岂 了 民 制 了 断 了 手机 本 产 能 力 。 


动 动笔 
仔细 想 一 想 ，PodPhone《 备 起 录 》 中 提 到 的 各 种 变量 相互 间 有 何 关 


系 。 下 面 这 些 关 系 对 是 同 升 同 降 还 是 背道而驰 ? 按照 目 己 的 答案 ， 
在 圆圈 中 添上 “+” 或 “-”。 


办 和 两 小 过 是 癌 升 间 答 ， 


号 林 呆 外 变 重 玫 语 而 颈 ， 栗 泣 型 星 研 从 “一 
在 商 运 里 旭 一 个 “上 +” 7 人 告 心 驴 。 上 闻 加 计时 渤 / 
浙 览 震 支 出 EE Ed 
ET [Lamexu | EE | 


ro || C0 Cm] 
ea] 0— er -Oo 

动 动笔 解答 

按照 PodPhone 的 想法 ， 下 面 这 些 变量 对 之 间 有 何 定 量 关 系 ? 


沪 洲 上 | na， 六 9 视 ， ml 人 stone 
入 省 支出 增加 1 


医 二 到 Ec PodPhon 
PodPhons PodPhone PodPhone 
PE 7 
| dPh 


PPhma 多 农 - 一 部 半 扣 ， 竞 争 殉 
手 坝 消 过 一 部 ， Er 少 来 -- 一 
训 池 如， 得 由 丈 吉 一 "全 


变量 之 间 可 以 正 相 关 ， 也 可 以 负 相关 


观察 数据 变量 有 一 个 好 办 法 ， 问 一 问 “ 这 些 变量 是 正 相 关 还 是 负 相关 ”， 
兰 种 变量 增 大 意味 着 另 一 种 变量 也 增 大 ， 则 为 正 相 关 ; 大 一 种 变量 增 
意味 着 另 一 种 变量 减 小 ， 则 为 负 相关 。 


在 边 征 PodPhone 发 现 的 更 多 其 他 关系 ， 你 如 何 和 用 这 些 关 系 建立 一 个 更 
大 的 模型 ， 指 出 PodPhone 确 信 的 观点 ， 使 这 个 模型 有 可 能 预见 到 
PodPhone 发 布 新 手机 的 时 机 ? 


这 是 能 以 PordPhone 《 戌 略 备 忘 录 》 
中 看 出 的 一 此 其 他 关系 . 


< 一 (+?) 一 > | 内 部 开发 活动 
= 竞争 对 手 
竞争 对 手 销 虽 


竞争 对 手 PodPhone 
都 是 正 相 共和 茶 颖 。 


动 动笔 
让 我 们 将 这 些 正 相关 和 负 相 关 变 量 关系 编织 成 一 个 模型 。 
请 用 对 开 页 上 指定 的 关系 绘制 一 个 网 络 。 


这 网 种 头 系 已 


\ 支出 


PodPhone 
动 动笔 解答 
将 PodPhone 的 观点 放 到 网 络 中 后 ， 你 的 PodPhone 模 型 看 起 来 怎么 
样 ? 


该 里 正 恬 发 生 一 系列 事情 . 


o 一 [村 
支出 

EE 
册 二 | EE 


i 
PodPhone 
产品 发 布 


| 器 HPhone 正 和 位 关 注 丰 
量变 章 同 汐 枸 互 你 用 ， 
供应 商 
We > 产生 名 
人 
a 


芳 其 中 荣 丫 空间 的 确 发 生计 化 ， ,) 


We 
不可 般 东 于 其 他 究 量 产生 明 员 ， 


现实 世界 中 的 各 种 原因 呈 网 络 关 系 ， 而 非 线性 关系 


线性 等 于 直觉 ， 关 于 “为 什么 PodPhone 有 可 能 推迟 产品 发 布 ” 的 线性 解释 
可 谓 简 单 明了 。 


PodPPhong 虞 《 茂 赔 备忘录 》 表明 
他 们 岗 把 该 要 比 这 所 雪 得 多 。 


可 和 是， 仔细 观察 PodPhone 的 战略 报告 驶 会 发 现 ， 不 管 细 世 如 何 ， 他 们 的 
真实 想法 要 比 简 单 的 线性 分 布 图 透露 的 东西 复杂 得 多 ，PodPhone 和 意识 
到 ， 他 们 要 在 一 个 活跃 、 多 变 、 互 有 联系 的 系统 中 制定 决策 。 


作为 一 位 分 析 师 ， 你 的 视野 要 比 这 个 人 简单 的 模型 开阔 才 行 ， 要 淘 望 看 出 
因果 关系 网 络 。 在 现实 世界 里 ， 各 种 原因 在 相关 变量 构成 的 网 络 中 传 
导 .…… 你 的 模型 怎么 可 能 独善其身 呢 ? 


那 我 们 访 吕 何 健 用 这 个 网络 来 理 清 甘 
PodPhone 必 市 新 产品 的 时 机 ? 怎么 处 音 
数据 呢 ? 


假设 几 个 PodPhone 备 选 方案 
PodPhone 迟 早 会 发 布 手机 新 产品 ， 问 题 是 
回答 这 个 问题 有 各 种 依据 ， 这 些 依据 都 能 成 为 分 析 假 设 ， 下 面 是 几 个 依 


据 选 项 ， 指 出 了 产品 的 可 能 发 布 时 间 ， 电 肤 交 给 你 的 任务 就 是 选 出 其 中 
的 正确 假设 。 


何 时 ? 


用 手头 的 资料 进行 假设 检验 


通过 理解 PodPhone 的 心智 模型 和 目 己 手头 的 证 据 ， 你 搜集 到 大 量 信息 ， 
摸 清 了 电 肤 的 心头 大 事 : PodPhone 何 时 发 布 新 产品 。 


你 需要 用 某 种 方法 整理 这 些 思路 ， 形 成 可 靠 的 预测 。 
假设 检验 的 核心 是 证 伪 


请 勿 试图 选 出 最 合理 的 假设 ， 只 需 剔除 无 法 证 实 的 假设 一 一 这 就 是 假设 
检验 的 基础 : 证 伪 。 


选 出 看 上 去 最 可 信 的 第 一 个 假设 的 做 法 称 为 满意 法 ， 如 下 所 示 : 


别 用 满意 法 ! 


铬 二 1: BE 
人 区 区 BE 布 次 从。 布 新 
品 


注 个 钼 设 态 入 满意 ， 1 


满意 法 其 实 非常 简单 : 选 出 第 一 个 选项 ， 其 余 不 作 处 理 。 相 反 ， 证 伪 法 
则 如 下 所 示 : 


证 扒 法 更 岂 年 。 


但 认 5: 
届 调 以 e ni: 痛风 上 
4 St: 3 3 SRT 
严 产 3 
=] 


是 总 尽 似 丰韵 误 设 ,一 


看 来 ， 满 意 法 和 证 伪 法 让 你 得 出 了 同样 的 答案 ， 对 吗 ? 可 并 非 一 贯 如 
此 。 满 意 法 的 严重 问题 是 ， 当 人 们 在 未 对 其 他 假设 进行 透彻 分 析 的 情况 
下 选取 茶 种 假设 时 ， 往 往 会 坚持 这 个 假设 ， 即 使 反面 证 据 堆 积 如 山 ， 也 


往往 视而不见 。 证 伤 法 则 让 人 们 对 各 种 假设 感觉 更 敏锐 ， 从 而 防止 掉 入 
认 知 陷阱 


进行 假设 检验 时 ， 要 使 用 证 伪 法 ， 回 避 满 意 法 。 
动 动笔 
试 试 证 伪 法 ， 划 掉 有 证 据 证 明 其 错误 的 假设 。 


可 假设 5: 
假设 4， 
一 年 内 发 布 新 pi 
产 加 UO co 
| | 到 


你 为 什么 相信 证 据 证 明 你 所 选取 的 假设 是 错误 的 ? 


SWISS IST IST SI ISO IST SET SI SS ISSN SS 
Wt 


BE 


动 动笔 解答 
哪 种 假设 被 证 明 是 错误 的 ? 


和 写 丰 对 学 所 池 闪 
[TE 
二 训 后 太 |%RR: 过 


NPod 
并行 


世上 没有 傻 问题 


问 : 看 来 证 伪 法 是 一 种 分 析 形 式 很 复杂 的 方法 ， 真 的 有 必要 用 这 种 方法 
吗 ? 


答 :， 这 是 一 种 了 不 起 的 办 法 ， 可 以 克服 人 们 专注 于 错误 答案 而 无 视 于 其 
他 答案 的 天 然 倾 问 。 通 过 强迫 目 己 以 完全 正规 的 方式 思考 问题 ， 会 减少 
因 名 视 重 要 的 特征 情况 而 犯错 误 的 可 能 性 。 


问 : ”这 类 证 伪 法 与 统计 学 上 的 假设 检验 有 何 关 系 ? 

管 : 你 在 统计 课 上 (或 在 《深入 浅 出 统计 学 》 中 ) 可 能 已 经 学 过 一 种 对 
候选 假设 ( 备 择 假设 ) 和 基准 假设 ( 原 假设 ) 进行 比较 的 方法 ， 其 目的 
征 识别 出 一 种 情况 : 如 条 这 种 情况 为 真 ， 则 原 假 设 几乎 不 可 能 成 立 。 

问 : 那 我 们 为 什么 不 用 那 种 方法 呢 ? 

管 : 这 种 方法 有 一 个 优点 ， 能 让 你 把 品质 各 异 的 异 质 数据 综合 起 来 ， 这 
征 非常 普通 的 证 伪 法 ， 对 于 复杂 的 问题 非常 有 用 。 但 是 ， 定 下 心 来 使 用 
上 述 频 率 论 者 假设 检验 方法 肯定 没 错 ， 因 为 对 于 数据 与 参数 相 吻合 的 检 
验 ， 你 是 不 会 想 用 别 的 方法 的 。 

问 : 我 想 ， 要 是 同事 们 看 到 我 用 这 个 推理 办 法 ， 肯 定 觉 得 我 疯 了 。 

管 : 要 是 你 能 挖 出 一 些 真正 重要 的 东西 ， 他 们 肯定 不 会 笑 你 。 优 秀 分 析 
师 的 理想 是 找到 复杂 问题 的 非 直 觉 答 案 ， 你 会 愿意 聘用 一 个 思想 保守 的 
数据 分 析 师 吗 ? 如 果 客 户 真 正 有 兴趣 从 数据 中 控 据 一 些 新 信息 ， 束 会 寻 
更 能 想 人 所 不 能 想 的 人 才 。 


问 :， 看 来 并 非 所 有 假设 都 一 定 能 被 证 伪 ， 比 如 ， 某 些 证 据 可 能 会 对 假设 
不 利 ， 却 无 法 推翻 假设 。 


管 : 完全 正确 。 

间 : ”数据 在 哪里 呢 ? 我 希望 能 看 到 更 大 量 的 数据 。 

答 :， 并 非 只 有 数字 表格 才 叫 做 数据 。 假 设 检验 中 所 使 用 的 证 伪 法 让 你 
对 “数据 * 有 更 广博 的 观察 ， 能 综合 大 量 异 质数 据 ， 你 几乎 可 以 将 任何 数 
据 放 入 证 伪 结 构 中 。 


问 : ”使 用 证 伪 法 解决 问题 和 使 用 优化 法 解决 问题 有 何 差别 ? 


管 : 两 者 是 适用 于 不 同情 况 的 不 同 工 具 。 在 某 些 情况 下 ， 你 希望 冲 


=| 
进 “Solver” 调 整 变量 ， 直 到 得 到 优化 数据 ， 在 男 一 些 情况 下 ， 你 希望 使 用 
证 伪 法 来 剔除 对 数据 的 其 他 可 能 解释 。 

问 : 好。 要 是 我 无 法 用 证 伪 法 剔除 所 有 假设 ， 该 怎 


A 
答 :， 这 问题 可 以 入 选 “智力 大 转盘 ”! 让 我 们 看 看 该 怎么 办 。 


办 呢 ? 


千 得 籽 ! 我 规 在 知道 的 东西 比 刚 找到 
你 时 多 多 了 ,能 挤 得 再 将 点 吗 ? 再 日 
除 士 种 假币 行 示 ? 


还 剩 下 三 个 假设 ， 看 来 证 从 
法 没 哨 完全 解决 问题 ， 纲 在 
有 何 打 算 ? 


如 何在 剩余 三 个 假设 中 做 出 选择 ? 


你 知道 ， 选 出 看 上 去 证 据 最 充足 的 假设 并 不 是 一 个 好 办 法 ， 而 证 伪 法 只 
帮助 你 吻 除 了 两 个 假设 ， 现 在 该 怎么 办 呢 ? 


最 德 嘱 种 假设 会 被 认定 为 最 强 假 设 呢 ? 
动 动笔 
每 种 假设 剔除 技术 各 有 何 优 缺 点 ? 
将 各 种 假设 与 证 据 进行 比较 ， 挑 出 最 可 信任 的 一 种 。 


对 假设 进行 评级 ， 不 利 证 据 越 少 的 排 在 越前 面 。 


动 动笔 解答 
选 出 目 己 最 喜欢 的 假设 剔除 技术 了 吗 ? 
将 各 种 假设 与 证 所 进行 比较 ， 挑 出 最 可 信任 的 一 种 。 


了 六 
现在 ,上 法 剔除 剩 下 的 假设 能 借助 j * 出 最 台 的 假设 。 


穆 委 .把 看 上 去 党 强 殉 仿 设 排 让 最 前 面 念 胡 风险 
吧 ， 这 示 是 灾 丫 用 满意 法 选 出 我 们 各 萄 的 假设 ， 
而 处 是 选 出 具有 有 最 强 证 据 支 持 沿 假设 ? 


只 要 是 通过 观察 诊断 性 对 证 据 和 假设 进行 比较 ， 就 不 会 如 此 。 
只 要 证 据 能 够 帮助 你 按照 强 弱 程度 对 假设 进行 排列 ， 它 就 具有 诊断 性 ， 
因此 ， 我 们 的 做 法 就 是 : 将 假设 与 证 据 逐 条 进行 比较 ， 看 看 哪 种 假设 具 
有 最 强 的 证 据 文 持 。 
证 我 们 好 好 看 看 这 个 方法 .…… 

术语 角 


诊断 性 是 证 据 所 具有 的 一 种 功能 ， 能 够 帮助 你 评估 所 考虑 的 假设 的 
相对 似 然 。 如 果 证 据 具 有 诊断 性 ， 束 能 帮助 你 对 假设 排序 。 


借助 诊断 性 找 出 否定 性 最 小 的 假设 


只 要 能 够 帮助 你 评估 各 种 假设 的 相对 强度 ， 证 据 和 数据 就 具有 诊断 性 。 
下 表 对 各 种 证 据 和 假设 逐条 进行 了 比较 ,，“+” 表 示 证 据 支 持 假设 ， 一 表示 


证 据 不 利 假设 。 
在 第 一 张 表 中 ， 证 据 具 有 诊断 性 。 


分 配给 各 个 数值 葛 上 相生 分 和 严谨 ， 却 
有 关 豆 观 ， 困 此 请 尽 办 进行 判断 ， 


却 念 载 们 迷路 往 设 3 


男 一 张 表格 则 相反 ， 证 据 并 无 诊断 性 。 


它 赤 持 所 哺 据 设 . 


这 条 证 据 温 有 诊断 性 ， ¥ ( ) 
H1 H2 


H3 
证 据 2 你 二 小 
四 


这 条 证 播 可 能 着 起 来 缸 用 意思， 但 除非 能 
帮助 忽 们 主 定 挨 设 ， 有 各 则 用 处 未 夫 ， 


进行 假设 检验 时 ， 重 点 是 要 识别 和 找 出 诊断 证 据 ， 非 诊断 证 据 不 会 给 你 
市 来 任何 进展 。 


让 我 们 看 看 这 些 证 据 的 诊断 性 .……… 
练习 


仔细 查看 手头 的 证 据 ， 与 每 一 个 假设 进行 比较 ， 用 加 号 和 减 号 及 诊 
断 性 来 评定 这 些 假设 。 


说 出 每 一 条 证 据 是 文 持 还 古 反 对 每 种 假设 。 
划 掉 不 具有 诊断 性 的 证 据 。 


PadPhens 在 条 手机 上 的 提 资 达 下 出 下 
芯 浏 


要 后 品 健 东 二 的 二 机， 上 广 苇 侮 会 入 下 
[we 可 

Poad>hsna 兰 序 执 和 官 说 “发 们 给 个 司 
认 站 省 玉 拦 书 新 和 干 术 。" 


党 劳 予 虽 手 刚刚 入 市 了 一 式 忻 康 诗 盐 
疝 诉 三 机 
所 济 习 虚 ， 这 央 苛 志 出 溢 喜 

振 传 ，Prrbnone 站 市 油 f- 写 灰 示 今 年 
十 安 六 中 莉 广 喇 


练习 解答 

你 的 假设 评定 下 来 如 何 ? 

说 出 每 一 条 证 据 是 文 持 还 古 反 对 每 种 假设 。 
划 掉 不 具有 诊断 性 的 证 据 。 


一 衣 训 写 对 手 风 月 奖 市 了 一 术 半 部 人 快 越 | 。 .~、 


的 符 手 坟 | i | | 和 


既 济 同 咀 ， 污 器 天 去 全 挡 密 


握 传 ，PodPn1ons 半 遍 专 行 官 衣 示 今年 \ \ Ee 
i ee 1 一 一 一 -~ ' 十 

趟 宾 发 新 产 咏 \ ek \ 
bv 7 \ 
正中 售 疡 部，PeaPhan 仙 网 对 更 | 1 沿 个 卡 避 内 “eh 撮 新 向 祝 可 能 1 

恒 总 刍 语 节 抱 新 手机 县 弄 闪 振 ， i 条 在 市 声 上 这 燃 ， 这 对 就 广 PmodPDhone 
/| /行动 了 ， ) 

信 认 在 开始 诡 - 一 年 南 ， 猎 半 可 能 。 / 

义 们 辫 合同 过 两 意 证 据 对 候 基 2 志 pa Pt mo 4 

te i 区 请 侧 ， 出 出 元 劲 归 给 一 


侦 投 3 圭 行 证 全 ， 因 轧 这 是 传说 ee a : 
nb 济 小 闫 决 定 痒 视 应 尽快 发言， 


无 法 一 一 殊 除 所 有 假设 ,但 可 以 判定 哪个 假设 最 强 


尽管 手 尖 的 证 据 无 法 让 你 仅 留 下 一 个 假设 而 崭 除 其 余 所 有 假设 ， 却 可 以 
在 剩 下 的 三 个 假设 中 找 出 否定 证 据 最 少 的 一 个 假设 。 


要 是 没有 更 多 信息 ， 这 个 假设 就 是 你 最 好 的 选择 。 


证 全 强 投 谨 各 AS 注 不 候 宜 最 各 ET 


狐 完 全 稚 说 服 了 .并 决定 短期 向 未 生 产 手机 应 陕 。 
项 星 接 下 来 角 搞 到 粥 息 . 计 载 们 宇多 确定 是 埋 冯 
个 风 心 向 过 是 之 局 其 个 时 间 生 产 。 


) 和 


看 亲信 网 今 析 得 到 _./ ) 


3 了 澳 甚 脸 效 果 ， 


不 能 开 咎 生 和 天. 太 烽 了 
直 得 Dodphone 上 市 前 党 产 出 来 
从 更 带 码 、 赚 主 多 . 


你 刚刚 收 到 一 条 图 片 短 信 .…… 


你 的 同事 刚才 在 一 家 餐厅 看 到 了 这 一 队 PodPhone 员 工 。 


款 o 


发 手 杞 7 手机 宁 祥 庆 罕 都 见 壕 了 ， 
匣 计 在 要 向 打 冬 接 个 演 部 公 ? 


这 是 新 证 据 。 


最 好 再 看 看 假设 表 ， 可 以 把 这 个 新 信息 放 到 假设 检验 中 ， 然 后 再 做 一 
次 ， 也 许 会 帮助 你 更 进一步 分 析 各 种 假设 。 


动 动笔 
再 做 一 次 假设 检验 ， 这 次 加 入 新 证 据 。 


叶 况 洗车 手 到 史实 布 了 一 上 欣 性 于 过 
越 的 河 于 3 
茎 济 习 敬 : 消 此 者 .与 专区 
撕 千 ，F2JPhorne 百 此 拉 . 行 兰 二 下 全 和 
小 容 发 市 新 产品 


直流 里 号 下 新 婚 据 ,一 


在 证 据 表 中 加 入 新 证 据 ， 确 定 新 证 据 的 诊断 强度 。 


这 条 新 证 据 是 否 改变 了 你 对 “PodPhone 是 否 将 发 布 新 手机 ( 电 肤 
是 否 该 开始 生产 ) ”的 估计 ? 


动 动笔 解答 
新 证 据 改变 你 对 于 各 种 假设 的 相对 强度 的 看 法 了 吗 ? 如 何 改变 ? 


经 济 上 浸 ， 消 具 老 卡 出 -多 + + 


汀 和气 RodPhz 折 十 执行 它 本 不信 三 

不 人 这 布 学 产 丰 Dd Ss + 

表 人 看 见 下 居 团 队 站 全 类 晶 关 入 

会 ， 条 各 的 人 手 里 湖 拿 着 新 手 扣 rT 一 — 
外 


法 是 未 有 力 让 大， 一 


国 在 证 据 表 中 加 入 新 证 据 ， 确 定 新 证 据 的 诊断 强度 。 


这 条 新 证 据 是 否 改变 了 你 对 “PodPhone 是 否 将 发 布 新 手机 ( 电 肤 
否 该 开始 生产 ) ”的 估计 ? 


即将 上 市 ! 


你 的 分 析 准 确 无 误 ， 电 肤 设计 了 一 系列 非常 酷 的 手机 皮肤 ， 就 等 
PodPhone 新 机 型 上 市 。 


谢谢 您 ， 载 们 终于 沽 出 手机 即将 上 市 ， 
己 茎 把手 机 准备 了 各 各 各 和 样 明 意思 网 新 这 
肤 . 另外 ， 我们 启 况 音 对 手 都 认 治 PudPhane 
耶 打 亲疏 布 新 革 机 ， 困 此 我 们 是 叭 一 做 将 浴 
备 鹏 厂家 ， 规 在 载 们 正 淮 备 横扫 市 场 ! 


6 贝 叶 斯 统计 
穿越 第 一 关 


他 说 他 和 别人 汞 一 
样 ， 可 究竟 有 多 大 未 
一 样 ? 


数据 收集 工作 永 不 停息 。 

必须 确保 每 一 个 分 析 过 程 都 充分 利用 所 搜集 到 的 与 问题 有 关 的 数据 。 虽 
说 你 已 学 会 了 证 伪 法 ， 处 理 异 质数 据 源 不 在 话 下 ， 可 要 是 碰 到 直接 概率 
问题 该 怎么 办 ? 这 就 要 讲 到 一 个 极其 方便 的 分 析 工 具 ， 叫 做 贝 叶 斯 规则 
， 这 个 规则 能 帮助 你 利用 基础 概率 和 波动 数据 做 到 明 察 秋 达 。 


医生 带 来 恼人 的 消息 
你 没有 眼花 一 医生 给 了 你 一 份 蜥 蝎 流 感 诊断 书 。 


好 消息 是 蜥 蝎 流 感 并 不 致命 ， 在 家 治疗 几 个 星期 即 可 痊愈 ， 坏 消息 是 蜥 
蝎 流 感 极 其 麻烦 ， 你 不 得 不 炊 业 ， 不 得 不 与 心爱 的 人 离别 好 儿 个 星期 。 


蜥 蝎 流 感 试验 报告 
日 期 : 
姓名 ， 
诊断 结果 : 阳性 


蜥 蝎 流 感 资 料 : 
疾病 ， 最 早出 


人 早上 晰 赐 流 感 的 患者 会 “ 吐 天 
会 长 出 “温度 


医生 确信 你 已 染病 在 身 。 不 过 ， 由 于 你 对 数据 分 析 已 经 得 心 应 手 ， 所 以 
可 能 想 看 看 试验 结果， 了 解 了 解 试验 结果 的 准确 性 。 


动 动笔 
火速 上 网 搜索 电 蝎 流感 疹 断 试验 ， 收 获 如 下 : 试验 正确 性 分 析 报 


哺 
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去 入 人 未 捉 指 晤 流感 : 党 芷 让 果 为 阳性 
的 松 率 为 9%。_ 和 省 个 缠 计 什 拉 碧 总 上 . 


根据 这 个 信息 ， 你 觉得 自己 患 蜥 蝎 流 感 的 概率 有 多 大 ? 是 如 何 得 出 
这 个 判定 的 ? 


动 动笔 解答 


你 刚刚 看 过 一 些 天 于 蜥 蝎 流感 诊断 试验 有 效 性 的 数据 ， 经 你 判断 ， 
你 的 患 病 几 率 如 何 ? 


蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 
若菜 人 已 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 90% 。 
若 某 人 未 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 9% 。 


根据 这 个 信息 ， 你 觉得 目 己 患 蜥 蝎 流 感 的 概率 有 多 大 ? 是 如 何 得 出 
这 个 判定 的 ? 


要 是 我 囊 兴 这 个 痪 六 话 ， 概率 六 古 志 未 征 992 ， 你 正如 第 -二 个 纺 计 依 所 社 出 欧 - 入 未 是 
人 都 高 有 这 个 站 病 ， 久 此 ,我 访 杷 估计 值 夏 强 调 低 - ， 蒜 冰 似 竺 水 全 下 上 时 等 于 9 2 一 
9%= 9 各 证 友 关 昌 于 所 记叙 不知 当 趟 倒是 75%? 


小 心 ! 
对 于 这 类 问题 ， 大 多 数 人 的 答案 都 是 75% 


75% 不 止 是 个 错误 答案 一 一 它 连 正确 答案 的 边 儿 都 没 摸 着 。 要 是 想 
dt 据 此 开始 推断 ， 结 有 果 会 错 得 更 离 


这 大 错 特 错 了 。 


在 得 出 正确 答案 之 前 ， 有 太 多 问题 需要 解决 。 
我 们 要 彻底 从 尖 开 始 .…… 


让 我 们 逐条 细 读 正确 性 分 析 


分 析 报 告 针 对 试验 给 出 了 两 类 平分 秋色 的 断言 ， 表 明 :“ 阳 性 ”试验 结 采 
的 概率 随 试 验 对 象 是 否 患 蜥 蝎 流 感 而 发 生变 化 。 


因此 ， 让 我 们 想象 有 两 个 不 同 的 空间 : 一 个 空间 里 有 大 量 的 人 患 蜥 蝎 流 
感 ， 另 一 个 空间 里 几乎 没有 人 患 蜥 蝎 流 感 ， 然 后 再 来 观察 未 患 蜥 蝎 流感 
的 人 的 “阳性 ”概率 断言 。 


-一 师 蜗 流感 诊断 试验 


正确 性 分 析 报 告 


若 某 人 已 忠 果 蝎 流 感 ， 试验 结果 为 阳性 
的 概率 为 90%。 


从 这 几 天 始 ， 
若 某 人 未 患 蜥 蝎 流 感 ， 试 验 结果 为 阳性 


| 


让 我 们 看 看 这 身 话 
的 真实 含义 …… 


动 动笔 
仔细 观察 第 二 条 断言 ， 回 答 下 列 问题 : 
蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报告 
若 某 人 未 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 9% 。 


籽 难 想 区 一 


mn 


和 本 同 题 。 


# 
情形 1 a 
划 果 100 人 中 有 90 人 只 珊 ， 叶 系 普 名 启明 也 红 征 100 人 中 有 10 人 网 让， 化 冬 木 求 病 划 证 


WR 葵 笔 中 为 绅 性 的 有 有 给 省 大 


动 动笔 解答 
患 病 的 人 数 是 否 会 影响 被 误诊 为 阳性 的 人 数 ? 


蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 
若 某 人 未 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 9% 。 
情形 1 


SE 
2 


这 表示 有 10 人 不 患 ， 10 人 的 9% 等 于 1 广 1 人 的 试验 结果 为 阳性 


晰 蝎 流 感到 底 有 多 普遍? 


看 起 来 ， 起 码 对 于 未 叫 病 但 试验 结 采 为 阳性 这 种 情况 ， 蜥 蝎 流 感 在 总 人 
数 中 占 的 分 量 有 显著 差别 。 


其 实 ， 除 非 我 们 不 仅 知道 试验 正确 性 分 析 结 果 ， 而 且 知 道 有 多 少 人 已 患 
蜥 蝎 流 感 ， 否 则 ， 我 们 根本 无 法 判断 某 人 得 蜥 蝎 流感 的 可 能 性 有 多 大 。 


我 们 需要 多 找 些 数据 


sreeass 


你 计算 的 是 假 阳性 
在 前 面 的 练习 中 ， 你 算出 了 被 误诊 为 阳性 的 人 数 ， 这 种 情况 称 为 假 阳性 


计 上 证 健 珍 ?， 亢 导 强 


厅 人 大 加 凡 鸠 说 巾 ， 
于 是 异形 1， 贞 中 六 


mw 1 
章 锅 人 定 几 由 没 灾 不 
\ cs. > 
从 
> 


[9p 光 来 记 妆 者 中 

N » 国富 SS yt 

\_9 妈 购 未 鹃 简 消 于 ~ 内 潜 名 艇 和 间 位 
名 者 一 个 盎 交 姓 ， 


与 假 阳 性 相对 的 是 真 阴 性 。 


人 还 应 考虑 真 阴性 。 真 阴性 指 的 是 未 患 疾 病 且 检验 结 


出 冰 你 林 克 白 季 洲际 ， 访 答 结 下 
本 皮 站 人 RR 性， 蝇 名 a 其 明 性 .， 


J | 
,OR eal a pe | 
Ss ee Ne 有 
ume” | / 
蕊 某 人 居 丸 拓 惕 流感 ， 过 发 站 时 必 阳性 世 共 人 大 末 和 塌 流感 ， 记 孜 直 反方 阴性 站 去 一 
约 稳 窜 冯 习 9、 晤 率 六 91 光 : 


NN Aero vol 


你 觉得 该 用 哪个 术语 描述 这 种 情况 ， 其 反义词 是 哪个 ? 


三 茶 作 二 . 注 旺 如 凉 法 ， 直人 当 只 大 一 一 一 人 > 


阳性 力 笑 率 280s 


动 动笔 解答 
你 想 用 哪个 术语 描述 蜥 蝎 流 感 诊断 试验 的 反面 ? 
岂 幅 流感 诊断 试验 


_ 浅 故 真 范 业 牢 。 泊 主 澡 河 惧 率 ， 
正确 性 分 析 报 告 XK 


\ 


若 基 人 已 旦 旦 妖 沃 或， 试验 个 EE 
洪 横 率 加 10%， 


具 革 已 吕 犁 揭 流 局 : 式 尾 不 导 为 
汶 检 室 久 BND。 


, » , se ~ | 
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这 些 术语 说 的 都 是 条 件 概率 


条 件 概率 即 以 一 件 事 的 发 生 为 前 提 的 另 一 件 事 的 发 生 概率 。 假 如 某 人 的 
试验 结果 为 阳性 ， 他 患 蜥 蝎 流 感 的 几率 有 多 大 ? 


这 是 你 一 直 在 用 的 两 条 断言 的 条 件 概 率 记 法 : 


Tw 
骂 兴 亲生 法 吉 技 时 堪 滑 卒 前 


| 
\ 
法 人 党 种 真 隔 性 ,一 、 法 条 表 丫 闪 览 。 ea 这 收 划 页 卫 堆 ， 
Pe y V 多 
P(t+|L}= 1 .P-L) 一 -一 / t+|~L)=1 el 
了 这 从 赤 假 阳 必 。 
A 和 起 滤 司 Fe 
六 EY 冯 性 合 Dr 后 中 世 3 | 3 k 站 


饥 撮 要 前 讽 基 全 
是 守 过 岂 如 活 了 ， 


让 我 们 看 看 这 个 表达 式 中 的 每 个 符号 的 含义 : 
以 阳性 试验 结果 为 条 件 的 蜥 蝎 流感 概率 。 
概率 条 件 
P(L|+) 
央 晶 流 蕊 人 信阳 性 试验 舍 时 
假 取 性 
你 需要 算 算 < 全 - 真 肥 性 
假 阴性 
真 随 性 
人 


O 〇 


符合 共处 钴 抒 窑 的 


/ee 人 数 昌 和 兴 ， 


Pt+|~L)， 丰 大 们 未 患 斯 同 沪 吉 的 条 件 卜 ， 革 天 六 验 引 如 六 阳性 的 构 谤 
P(t+| 中 :三 太 们 种 增强 流 受 的 条 什 下 ， 荣 估计 监 关 果 六 阳性 贡 琳 宰 


P(-L): ”女人 们 患 术 卉 流感 的 条 件 下 ， 杀 人 这 验 站 米 庆 阴性 的 城 字 
P(-I~L): 立信 们 未 品 淅 赐 流 惑 的 余 件 下 ， 茶 入 设 验 结 浴 为 阴性 的 恢 记 


但 首先 要 知道 有 和 多少 人 患 了 蜥 蝎 流感 ， 然 后 可 以 用 这 些 百分比 来 计算 符 
合 每 个 组 的 实际 人 数 。 


这 是 你 想 要 的 数字 


Neon 


在 该 验 结果 为 阳性 网 
前 提 条 件 下 ， 患 蜥 蝇 
流感 的 概率 是 多 大 ? 


啊 ， 我 明 岛 了 ， 
那么 有 多 内 人 息 
蜥 蝎 流 感 ? 


1% 的 人 患 蜥 蝎 流 感 


研究 表明 总 人 口中 有 1% 的 人 患 有 蜥 蝎 流感 一 一 这 个 数据 可 以 用 来 分 析 试 
验 结果 ， 从 人 类 的 角度 上 看 ， 这 个 人 数 非 常 多 ， 但 从 总 体 人 口 的 百分比 
上 看 ， 这 个 数字 非常 小 。 


1% 是 基础 概率 ， 在 根据 试验 结果 单独 分 析 每 个 人 的 情况 之 前 ， 你 就 已 经 
知道 患 有 蜥 蝎 流 感 的 人 口 只 有 19%， 因 此 基础 概率 又 称 作 事前 概率 。 


疾病 追踪 中 心 正在 关注 蜥 蝎 流 感 
研究 表明 全 国有 1% 的 人 患 有 蜥 蝎 流感 


上 周 的 最 新 数据 表明 ， 全 国有 1% 的 人 口感 染 蜥 蝎 流 感 ， 尽 管 蜥 蝎 流 
感 很 少 守 人 人 性命, 但 患者 需要 隔离 ， 以 防 感 染 他 人 。 


小 心 基 础 概率 廖 误 


我 倒 觉得 ，90%6 的 页 
阳性 率 玫 示 你 的 确 有 可 
能 患 痪 了 |] 


全 


gs 日 


这 是 廖 误 ! 


务必 警惕 基础 概率 ， 基 础 概率 数据 不 一 定 在 每 种 情况 下 都 存在 ， 但 是 ， 
假如 确实 有 这 个 数据 而 你 却 不 用 ， 那 么 ， 你 将 毁 于 基础 概率 廖 误 ， 即 名 
略 事 前 数据 并 因此 作出 错误 决策 。 


在 本 例 中 ， 你 对 自己 患 蜥 蝎 流感 概率 的 判断 完全 取决 于 基础 概率 ， 由 于 
数据 表明 基础 概率 为 1% 的 人 口 患 蜥 蝎 流 感 ， 那 么 ，90% 的 试验 真 阳性 率 
看 起 来 就 不 那么 能 说 明 问 题 了 。 

动 动笔 

计算 一 下 你 患 蜥 蝎 流感 的 概率 ， 假 定 以 1000 人 为 基础 进行 计算 ， 将 

人 数 填写 在 以 下 空白 中 ， 按 照 基础 概率 和 试验 指标 分 组 。 


蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 
若 某 人 已 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 90% 。 
若菜 人 未 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 9%。 


别 记 了 六 
出 洁 晰 旺 注 党 
| 
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证 矿 钴 果 为 在 州 六 六 办 于 证 防 辣 果 芒 门 必 去 闭 尘 茜 玖 阳 本 


刀 莹 日 门 炒 日 汰 丈 日 门 该 


\ 蛤 钴 采 为 车 己 六 总 珊 避 忆 八 关 采 访 阶 性 抽 人 数 
A 
藉 件 下 出 庶 的 格 沦 二 “ 开 病 = 二 稚嫩 内 注 阳 ' 生 的 人 教 : + = 


动 动笔 解答 

你 重新 算出 来 的 目 己 患 蜥 蝎 流 感 的 概率 为 多 少 ? 
蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 

若 某 人 已 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 90% 。 


若 某 人 未 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 9% 。 
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我 患 蜥 蝎 流 感 的 几率 为 996 
你 患 蜥 蝎 流 感 的 几率 仍然 非常 低 
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这 费 是 已 ~~ 。 估 内 避 蛤 指 蛙 吉 是 外间 俱 ， 基 县 课 阳性 ; 
贷 西 葵 . 保 阳 性 癌 可 键 收 更 庆 . 


用 简单 的 整数 思考 复杂 的 概率 


当 你 想像 着 利己 在 观察 1000 个 人 时 ， 束 已 经 从 思考 小 数 概 率 转换 为 思考 
整数 。 我 们 的 大 脑 生 来 不 擅长 处 理 概率 数字 ， 因 此 ， 将 概率 转变 为 整 
数 ， 然 后 进行 思考 ， 是 避免 犯错 误 的 一 个 有 效 办 法 。 


这 里 有 一 些 处 
理 整 数 的 工具 ， 


可 概率 并 未 像 整数 

那 祥 显 而 易 见 ， 
搜集 到 新 数据 后 ， 用 贝 叶 斯 规则 处 理 基 础 概率 
信 不 信 由 你 ， 你 刚刚 用 了 一 次 人 们 常用 的 贝 叶 斯 规则 ， 这 是 一 个 强悍 无 
2 
永 2 o 


如 采 你 想 用 数学 方法 进行 计算 ， 可 以 使 用 下 面 这 个 怪 模 怪 样 的 公式 : 


藉 釉 鸡 二 【总 约 的 人 1 ~ 
以 间 技 访 答 咎 号 为 关 I 
时 蚁 晰 怒 演 成 妖 志 


~~~s P 仁 |+) = 


一 真 下 址 环 
ww 
PIL}P{+ | 了 | 
PIL}P(+ | L) + P(-)P{+ | ~L) 
记 


‘ 


人 
a wd 
此 忆 扫 趾 【 来 应 出 胸 信 1 一 


贝 叶 斯 规则 可 以 反复 使 用 


贝 叶 斯 规则 是 一 个 重要 的 数据 分 析 工 具 ， 它 提供 了 一 种 把 新 信息 整合 到 


分 析 中 的 精确 方法 。 


我 的 分 析 


我 的 分 析 
(on) + (ee) 
亚 础 概率 
我 的 分 析 
人 ee) 


-一 


法 么 说 访 验 结果 并 素 让 群 么 下 
确 ， 你 寇 席 怒 流 墩 前 几率 各 妨 
启 其 仇人 高 9 们 .你 是 藉 是 说 另 ， 忆 廊 谢 姑 流感 的 
外 做 信访 珍 t 电 正 常人 高 9 信 
其 型 村 刷 1 90 
5 


谷 训 中 婚 信也 了 的 极 第 ，98% 


医生 采纳 了 这 个 建议 ， 又 做 了 一 项 试验 。 让 我 们 看 看 结果 .…… 
第 二 次 试验 结果 : 阴性 


医生 上 次 没 给 你 迁 更 可 上 靠 、 更 先进 的 蜥 蝎 流 感 试 答 ， 因 为 收费 贵 那 么 一 
点 儿 。 可 既然 第 一 项 试验 (便宜 点 、 但 准确 性 差 一 点 ) 结果 为 阳性 ， 就 
得 来 真 格 的 了 .…… 


高 级 晰 昌 流 三 认 验 报告 

口 斯， 今天 
| 才 名 : SN 
诊断 红 平 ， 阴 性 
| 斯 揭 流 感 资料 : 种 执 带 


村 生计 了 一 有 的 有 疾病 ， 景 早出 规 he 
询 售 验 一 高 级 当中 。 
蚂 量 济 号 诊 电 会合。 


-A 


人 
sap ema 


家 隔 汕 六 鸯 愉 上 


江 硝 诊 开 上 峡 蝇 流感 的 患者 会 啤 再 纳 
] 气 ， 极 严 宣 怖 况 下 会 长 出 温度 色 来 休 


窟 凋 恕 江 。 


D 
上 
小 心 ! 


你 之 前 把 这 些 概率 理解 错 了 


最 好 再 分 析 一 过 数据 。 现 在 你 知道 了 ， 不 考虑 基础 概率 允 紧 张 试验 
结果 (甚至 紧张 试验 正确 性 统计 ) ， 不 过 是 在 添 想 里 了。 


新 试验 的 正确 性 统计 值 有 变化 
用 基础 概率 和 新 的 试验 统计 值 可 以 算出 你 患 蜥 蝎 流 感 的 新 概率 。 


注 是 你 第 一 决 信 验 待 平 ， 


i 新 售 验 届 费 我， 站 可 谊 ， 
肾 昌 流感 讼 断 试 难 2 『 
正确 性 分 析 报告 WV 


若 芭 人 已 各 弛 旱 流 霹 ， 汪 验 二 所 为 阳性 ”高 级 婕 蝗 演 咸 诊 肠 试 验 
的 法 宰 为 80 入。 正确 性 分 析 报 告 


若 关 人 未 下 看 哩 流 同 :试验 封 兵 为 阳性 
的 妆 室 为 955。 车 荣 信 中, 屿 计 各 流 磅 :可 验 冰 采 为 阳性 节 
醚 过 页 88 和 5 < 


~、 
世 攻 人 未 不 沂 强 流 帮 ， 江 驻 疆 乐 为 阳性 共 


析 率 汶 1 各。 | 


广 
我 们 是 于 会 健 用 版 六 的 基 珊 A | 
枚 床 ; 你 股 容 给 绍 洒 骂 隔 姓 ， 议 Ne 7 
Wi 和 这 出 正确 性 数据 半 / 
和 


动 动笔 
你 认为 基础 概率 会 是 多 少 ? 


本 


六 


你 认为 基础 概率 会 是 多 少 ? 


新 信息 会 改变 你 的 基础 概率 
齐 到 第 一 项 试验 结果 时 ， 你 把 大 家 的 电 昌 流感 发 病 率 当做 自己 的 基础 


大 家 的 蜥 蝎 流 感 发 病 
率 是 1% 


国 基 碟 概率 


这 去 你 属于 这 个 群体 … 


SS 


和 已 是 个 音 通信 ………"， 
没什么 特别 网 
但 你 从 试验 结果 中 了 解 到 ， 你 患 蜥 蝎 流感 的 概率 高 于 基础 概率 ， 这 个 高 
概率 是 你 的 新 基础 概率 ， 因 为 现在 你 属于 试验 结果 为 阳性 的 人 群 。 


… 规 在 你 属于 过 个 群体. 


试验 结果 为 阳性 的 人 中 有 9% 忠 
有 晰 蝎 流 感 


你 歇 新 基础 概率 


让 我 们 赶快 再 用 贝 叶 斯 规则 算 一 算 .…… 
动 动笔 


让 我 们 以 试验 结果 为 条 件 ， 用 新 试验 结果 和 经 过 修正 的 基础 概率 算 
一 算 你 患 蜥 蝎 流感 的 概率 。 


高 级 蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 
若菜 人 已 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 99% 。 
若 某 人 未 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 1% 。 


记 信 大 ?% 询 六 ， 划 


沪 你 ， 和 将 移师 歇 流 或 ， 
) 


TAN A 
Eg 和 a 
去 沉 考 执 卓 未 中 渍 当当 
试 氢 站 去 为 条 性 次 引 果 洲际 性 让 站 于 关 线性 成 埠 注 时 
守 闷 日 扎营 日 站 吾 晶 EE 


胃病 下 试 垃 让 只 为 阳 ' 土 刚 人 人 人数 
柑 汪 总 纪 不 为 取 性 的 
次 二 杭 的 旺 去 i 串 轴 晶 :多 起 果 睹 陆 几 为 大 归 
i 未 吕 妆 而 当 的 让 同仁 汐 人 起 


动 动笔 解答 
算出 你 患 蜥 蝎 流感 的 新 概率 了 吗 ? 
高 级 蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 
若 某 人 已 患 蜥 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 99% 。 
若菜 人 未 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 1% 。 


~“ 1]3C0D 人 
试验 禧 条 加 了 交 丛 有 六 中 济 售 答 征 果 注 泪 位 裔 大 外 有 
36 的 八 意 晴 丘 消 花 。 ?136 询 人 不 类 站 规 这 区 
F 
\ -A 
“> a 20 31 地 -一 


Fr 


2 所 La 


试 获 拓 水 为 不 性 让 人 验 站 牛 贞 革 守 就 验 沦 打 为 门 性 试 驴 富 术 为 这 性 
纪元 日 这 交 日 的 笋 瑟 困 数 日 


:Ne 各 滴 二 阁 渤 扩 谅 导 性 亿 信 披 1 
大 让 驼 站 旷世 也 性 为 一 
东 件 下 水 辣 节 增 这 1 太 辣 并 试 控 芝 革 入 和 毕 必 的 人 地 ;| 1+901 

' 未 总 病 乔 闷 辫 在 宁 为 羽 性 仙人 埠 人 


我 患 蜥 蝎 流 感 的 机 会 是 0.196 ， 
放心 多 了 ! 
你 用 贝 叶 斯 规则 控制 概率 ， 并 且 现在 知道 如 何 管理 基础 概率 了 。 


避免 基本 概率 雇 误 的 唯一 办 法 殉 是 对 基础 概率 提高 警惕 ， 而 且 务 必要 将 
基础 概率 整合 到 分 析 中 。 


你 得 新 蝎 流 富 的 福 率 太 低 了 ， 
宽 全 和 不必 放 在 心 上 ， 


蜥 蝎 流 感 与 你 开关 ! 


现在 不 用 怕 感 冒 了 .…… 


7 主观 概率 
信念 数字 化 


和 


在 咯 到 水 激 辣 之前， 
乌 耸 他 3 分， 可 观 
位 给 4 仿 ， 


虚拟 数据 未 尝 不 可 。 

真 的 。 不 过 ， 这 些 数字 必须 描述 你 的 心智 状态 ， 表 明 你 的 信念 。 主观 概 
率 就 是 这 样 一 种 将 严 瘟 融入 直觉 的 简便 办 法 ， 有 具体 做 法 马上 介绍 。 随 着 
讲解 的 进行 ， 你 将 学 会 如 何 利用 标准 偏差 评估 数据 分 布 ， 前 面 学 过 的 一 
个 更 强大 的 分 析 工 具 也 会 再 次 登台 亮相 。 


背 水 投资 公司 需要 你 效力 


背 水 投资 公司 是 一 家 商号 ， 依 靠 在 发 展 中 市 场 谋 求 模糊 投资 赚钱 。 他 们 
选择 的 投资 别人 很 难 理解 ， 甚 至 很 难 发 现 。 


公司 的 战略 意味 着 他 们 对 分 析 师 的 才干 十 分 倚重 ， 需 要 分 析 师 具备 无 懈 
可 击 的 判断 能 力 和 民 好 的 关系 ， 以 便 帮 助 背 水 公司 得 到 所 需要 的 信息 ， 
制定 妥善 的 投资 决策 。 


生意 倒是 绝妙 的 生意 ， 可 分 析 师 们 的 纷争 已 经 快 把 公司 吵 垮 了 一 一 激烈 
的 分 攻 使 得 人 心 澳 散 ， 这 将 成 为 投资 的 一 场 灾 难 。 


背 水 公 司 的 内 部 危机 有 可 能 迫使 公司 关闭 。 
分 析 师 们 相互 叫 阵 


育 水 公司 的 分 析 师 在 许多 地 缘 政 治 趋 势 方面 分 上 收 挛 重 ， 这 给 打算 根据 他 
人 
| o 


分 析 病 造反 了 | 
要 是 再 达 和 不感 共识 ， 他 们 金 
都 会 离开 ， 


楚 分 歧 所 在 并 让 分 析 师 们 达成 共 
识 ， 那 就 太 好 了 。 要 不 然 ， 最 起 码 ， 要 是 你 能 以 某 种 方法 确定 分 上 收 ， 让 
育 水 公司 的 老板 们 认 清 目 己 的 方向 ， 也 算 不 错 。 

让 我 们 看 看 争吵 内 容 
动 动笔 

看 看 分 析 师 们 发 给 你 的 电子 邮件 ， 这 能 帮 你 了 解 分 歧 内 容 吗 ? 


分 歧 到 底 出 在 哪里 ? 要 是 你 能 帮忙 搞 清楚 4 


发 件 人 : 普 水 没 资 公司 高 级 研究 分 析 吕 
收入 大- Heac First 
主题 走 丁 立冬 


这 此 仿 析 呈 赴 吉 种 冲 。 
| 


在 注 去 六 个 呈 蛙 ， 识 一 点 学 竺 问 同事 们 论证 描 的 逆 点 ， 站 南 政 闻 
今年 避 能 准备 降 发 税收 ， 和 或 们 的 当地 加工 以 及 兰 种 羡 冯 报 于 加 证 
洋 了 这 一 点 。 


舌 由 ， 背 藉 迭 资 “分 轩 ” 动 队 二 的 鞭 尼 一 些 人 可 个 平头 为 沪 个 论 
点 往 疯 狂 ， 上 下 认 活 我 如 个 梦想 室 ， 业 们 告诉 近 ， 政 府 的 这 种 姿 
办 ， 或 疼 说 角色 ， 鼠 “ 恕 不 可 能 的 ”-。 行 吧 ， 作 全 作 这 科 评 从 在 
以 所 [4? 显然 ， 和 该 政府 正在 菩 司 涉 习 投 容 ， 我 可 以 这 么 肯 诉 各 ; 
只 要 税 履 一 至 ， 番 让 投资 就 会 伟 法 水 一 样 满 过 云 ， 我 们 和 辈 让 站 
商 洲 大 地 盘 ， 溉 灶 在 


发 件 人 六 水 抵 次 公司 政治 沧 析 是 
发 半 人 Head Firat 
主题 : ” 挨 沪 模 枯 地 域 ， 蝗 震 


党 区 们 的 答 达 计 信 入 沼 甘 忆 ? 各 罗 届 下“ 竹 堆 统 补 山石 沁 汪 
他 相 一 向 如此， 仙 轨 者 下 一 入 收 网 聊 航 税 空 公司 的 可 能 性 比 丰收 
现 的 可 能 性 豆 大 ， 圭 南 信和 本 能 会 关税 ， 月 时 化 们 可 能 未 打 甸 
并 二 兴国 招 资 ， 印 尼 今 年 挫 资 生态 旅游 的 可 能 性 比 不 朱 询 六 事 训 
性 更 大 ， 但 这 不 安 刀 太 大 作用 一 裁 游 业 各 定安 初 京 培 如。 


务 成 只 畔 对 这 三 人 国字 喝 ? 


杰 志 从 水 公 豆 不 开 坤 一 些 习 琴 文 生计 环 仆 喜 
沾 开 摔 一 些 习 屁 广 此 真 班 角 志 对 老 和 公 
半 泊 就 得 关 ….… RY 


发 件 人 ， 衣 水 投资 公司 经 泸 丰 究 部 副 避 才 
你 和 人。 Hesd Fisr 


主 古 这 小 太 二 库 夫 过 俄罗斯 区 1 


在 经 济 计 的 芬 析 师 同 不 断 膏 出 玄 些 盾 工 作成 染 什 六 傣 洗 苦 启 人 
和 政府 上 作 的 同 | ， 基 水 乓 资 区 其 倪 信 所 表现 出 来 的 洒 俄 轨 朵 内 
部 丽 恋 的 息 规 令 大 祝 仿 。 仍 多 省 棣 不 可 能 以 网 欧 骸 ， 信 门下 一 党 
剖 泵 否 支 圭 四 油 风 也 可 能 公 是 有 所 以 藉 晤 站 以 决定 的 


败 件 人 凋 汶 息 音 公司 初代 碘 中 已 
监 件 估 ， Head First 


主 强 Fm 


SN 这 最 高 管 强 层 也 
头 去 了 次 赵 ， 


别 乒 旺 总 邢 那 芋 当 录 子 他。 


来 自 现 场 的 济 断 是 今 千 旅游 业 醒 定 大 有 机 会 刺身 ， 针 民 全 委 生 硒 
江 。 书 中卫 习 慎 么 击 十 馆 ， 我 于 好 专电 是 赤 是 这 杰 兰 笠 对手 各 
从 司 列 妇 坛 发 要 起 的 陪 是 才 知 …… 


每 封 邮件 的 把 写 人 都 用 了 一 大 堆 话 来 描述 他 们 对 各 种 事件 的 可 能 性 
的 看 法 。 列 出 他 们 提 到 的 概率 用 词 。 


动 动笔 解答 
看 过 分 析 师 们 的 电子 邮件 后 ， 你 对 他 们 的 争议 有 何 印象 ? 


成 性 人 | rr 
Ed 


| 竺 下- 二。 加 隔 。 业 水 拉 实 区 也 源 和 3 


3 记 “ 尼 焉 吕 币 的 1 条， 
演武 区 二 虹 周 ， 济 并 符 让 亡 吉 的 计 吉 攻 访 ， 怕 
， 从 光 检 将 总 个 党 法 / 
本 + 


相信 前 加 记性 如 六，17 这 


到 
人 上 全 22 人 中 时 
印尼 政府 是 否 会 投资 生态 旅游 ? 


每 封 邮 件 的 搓 写 人 都 用 了 一 大 堆 话 来 描述 他 们 对 各 种 事情 的 可 能 性 
的 看 法 。 列 出 他 们 提 到 的 概率 用 词 。 


和 用 词 有 : 可 能 \ 可 能 “可 能 可 能。 可 能 不 
~ 喇 [ 台 乡 | 台 会 Ey 全 。 


吉姆 : 这么 说 ， 是 让 我 们 来 评 评 谁 对 谁 错 ? 没 问 题 ， 看 看 数据 就 行 
了 


弗兰克 别 急 ， 这 些 分 析 师 非 同一 般 ， 他 们 训练 有 素 ， 经 验 丰 富 ， 
征 正经 研究 那些 国家 的 专家 。 


乔 : 对 的 ， 首 席 执行 官 说 他 们 想 要 什么 数据 就 有 什么 数据 ， 他 们 能 
得 到 世界 上 最 棱 的 消息 。 他 们 花 钱 买 专 有 数据 ， 他 们 派 人 刺探 政府 
消息 ， 他 们 还 派 入 在 现场 做 第 一 手 调 查 。 


弗兰克 : ”地缘 政 治学 是 一 门 很 难 琢 麻 的 学 问 ， 它 预测 的 是 单个 事件 
， 这 类 事件 没有 大 量 频率 数据 可 供 进 行 更 详细 的 预测 。 他 们 从 各 种 
渠道 搜集 数据 ， 据 此 进行 有 根据 的 猜想 。 


人 


乔 : 我 们 的 数据 分 析 掺 进去 只 会 让 争论 更 激烈 。 

弗 兰 殉 : 其 实 ， 争 来 争 去 都 是 各 个 国家 即将 发 生 的 事情 的 一 些 假 
设 ， 分析 师 们 一 听 到 那些 表示 可 能 性 的 字眼 束 心 烦 意 乱 ， 可 能 ?大 
有 机 会 ? 这 些 话 到 底 是 什么 意思 ? 


吉姆 : 所 以 你 想 帮 他 们 找 出 更 妥当 的 字眼 来 表达 他 们 的 感受 ?” 嘿 ， 
这 似乎 是 在 痕 费 时 间 。 


弗兰克 : 要 找 的 可 能 不 是 字眼 ， 而 是 让 他 们 的 判断 显得 更 精确 的 东 
西 ， 虽 说 这 些 判 断 不 过 是 某 些 人 的 主观 信念 .…… 


如 何 让 概率 用 词 更 精确 ? 
主观 概率 体现 专家 信念 


如 果 用 一 个 数字 形式 的 概率 来 表示 目 己 对 有 某 事 的 确认 程度 ， 所 用 的 驶 是 
主观 概率 。 


主观 概率 是 根据 规律 进行 分 析 的 巧妙 方法 ， 尤 其 是 在 预测 孤立 事件 却 缺 
乏 从 前 在 相同 条 件 下 发 生 过 的 事件 的 可 靠 数据 的 情况 下 。 


大 家 都 以 这 种 方式 说 话 …… 但 他 们 到 底 是 什么 意思 呢 ? 


载 要 售 侯 罗 新 去 持 吾 泪 业 的 上 
章 是 609%6. 


做 罗斯 板 有 可 馆 秆 佬 坟 


le 和 支持 名 油 北 腑 几 
音 是 7096,.,.,。 


这 些 都 是 主观 概 下 ， 


这 些 斤 字 册 分析 市 用 于 揪 过 
自己 信息 的 用 词 要 将 确 径 条. 


主观 概率 可 能 表明 : 根本 不 存在 真正 的 分 歧 


我 谎 避 这 非常 有 可 台 
| 0 


六 想 ， 我 刘 说 发生 
这 于 的 几率 二 如 区 ， 


多 叔 吧 ， 忽 访 觉 家 
扣 这 再 店 也 时 肌 泪 加 ， 


站 所 范 们 分 类 永世 于， 


是 胸 ，“ 坦 澳 ” 这 问 
如 习 千 区 骸 对 -…， 


动 动笔 
起 草 一 份 电子 表格 框架 ， 其 中 包括 需要 请 各 位 分 析 师 提供 的 主观 概 
率 。 你 会 如 何 构思 呢 ? 


亡 让 


| 】 
小 宽 赣 得 划 关 镜 妇 析 吨 轩 对 让 


1 元 一 =- 守 f ， > CS 3 
IJ 二 了 主 读本 六 ， 


上 裕 


动 动笔 解答 
你 想 用 来 描述 分 析 师 主观 概率 的 电子 表格 外 观 如 何 ? 


伐 罗 浙 下 一 香 会 补贴 石油 业 。 


令 罗 新 下 一 条 糙 收 购 欧 航 舰 空 公司 ， 
东 相 由 包 医 和 这 六 种 赵 南 令 年 将 减 税 。 
末 措 最 上 面 一 厂 

缉 尼 活 芒 业 售 年 将 悉 身 ， 

名 尼 芍 调 将 投资 生态 诊 注 ， 


拒 们 将 在 空 净 中 拒 写 每 全 

容 折 部 对 每 种 说 该 议 判 虐 ， 
Raise stateoment! statsment2 statement3 | statspwenti statements statement6 
1( 作 六 嘱 ) 【说 流 站 【说 流 2) (说 沪 3) | (说 法 4) (说 法 5) (说 这 5) 
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| 和 nm 一 


mwm | 


一 
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pr TEFS 
lm ym 


分 析 师 们 答复 的 主观 概率 


这 做 沽 还 期 有 货 轧 ， 从 
流 个 能 度 库 ， 今 歧 往 季 承 
鞋 于 那 全 类 家， 


四 
TI he [ 


dl 


和 A 5 C D F F G 
Analyst Statement! Statement2 Statement3 Statementi Statement5 Statementé 
1 a7% am 370% 30am 5 万 号 
2 4% 有 4341 56% 28% 381% 
1 Ag% a7%N 675% 37% 0% 8a5% | 
4 391% 83% 7 30% 4 i 
5 91% I7% cu 19%W 0% 72% 
6 92% 6 小 和 和 30%% Ly%w 18%% 84%% 
7 a7% a7 B66% 27% Sos 38 | 
4 Cp 5 41%w 33% 3% 9% 
a aa% S59% B3ch ts% 12% 74% 
10 92% 233% 9ou 30% 9% 91% 
11 aa% 34% O05% 5 2% 37%5 
12 39% 78% 46% 28% 5% 70% 
13 92% 70%u 415%% 33% 14% 3% 
14 as A 35o% 35% 13% 81% 
15 89% 543 45% 16% 5% 37% 
16 a0% 67%; 53% 19% 3% 70% 
17 92 壤 74%0 34 33%% D%p 3% | 


18 91% 21% 22% 40% ?7% 89% 
39% 21% 25 < 


一 一 第 水 公司 盟 李 行 开 蝎 主 乱 东 坊 起 未 i 


现在 我 们 已 经 有 所 进展 。 


尽管 你 还 没有 找到 办 法 消除 这 些 人 的 分 歧 ， 但 进展 是 肯定 的 ， 
靶 已 经 浮 出 水 面 。 


从 一 些 数据 看 来 ， 分 歧 可 能 根本 没 那么 大 ， 至 少 对 有 些 事情 是 这 样 。 
让 我 们 看 看 首席 执行 官 对 这 些 数 据 的 看 法 .…… 

首席 执行 官 不 明白 你 在 忙 些 什么 

他 似乎 并 不 觉得 这 些 结果 对 解决 分 析 师 之 间 的 分 歧 会 有 所 助 益 。 


真正 的 分 


发 件 人 ， 有 2X 履 安 公 二 首 所 拱 
此 放大 :Haas First 


十 题 。 ”你 拉 “ 主 现 相 宰 ” 


他 未 党 得 这 举 数 对 六 个 分 林 茂 狐 杯 伏 束 。 有 我 们 诉 和 你 局 弘 是 杀 
毫 霜 位 僻 因 有 晤 。 兴 苍 析 洒 之 门 的 分 地， 而 这 委 文 不 过 征 出 特 
获 一 点 的 方法 列举 演 些 你 县 。 所 


我 中 要 道 各 分 其 ， 六 不 是 我 个 找 公 必 的 原 习 ， 
我 化 要 修 你 的 竺 ， 代 决 泛 毕 分 让 ， 进 亚 步 处 
得 一 下 ,让 我 个 搁 着 好- 些 的 去 子 
色 护 宦 训 此 分 其 去 误 计 斌 们 区 报 资方 训 。 


' # ~ 


光 悦 依 返 达 了 土 观 概 补 笨 介 析 工 具 ， 


3 能 答 焉 们 茶 米 1 之 况 ? 


旗 深 执行 富 


你 可 能 该 向 首席 执行 官 解释 、 申 述 自己 搜集 这 些 数 据 的 理由 .…… 
动 动笔 
你 的 主观 概率 表 .…… 
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.…… 比 这 些 愤 怒 的 邮件 更 有 助 于 分 析 吗 ? 
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动 动笔 解 管 
你 的 主观 概率 表 .…… 
….… 比 这 些 愤怒 的 邮件 更 有 助 于 分 析 吗 ? 
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人 
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诊 帮 助 上 自己 抓 住 辐 题 售 点 ， 上 决 问题 。 


竹 件 人 ， 可 六 训 和 次 兰 搞 山行 局 
尺 住 haac Firsl 

工 面 :二 水 反切、 酌 混 
下 好 ， 生 入 和 芝 1， 个 我 下 大 有 有 一 大 必 炽 了 家 ， 
笃 发 深 张 同 过 来 ， 周 里 总 上 设 比 若 拱 让: 
恋 易 如 日 尺 咱 .。 


你 苍 了 一 步 时间， 可 
社 仿 工作 人 了 了， 


虑 们 站 训 其 开 
人 


动 动笔 
每 个 数值 用 一 个 点 表示 ， 代 表 相 应 的 主观 概率 。 
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纵 轴 实际 上 不 重要 ， 西 直 即 
可 ， 以 便 兰 见 前 才华 据点 。 


说 法 1 说 法 2 
起 罗 贡 开 一 季 会 补贴 石油 业 ,。 叙 罗 地 下 一 县 将 救 赂 欧 入 流 空 公司 。 
这 是 一 
个 实 削 ， 
六 T EE: T F T | 
00 02 04 06 08 4.0 00 02 04 06 08 1.0 
说 法 3 说 法 4 
战 南 今年 将 福 税 。 越 凋 政府 今生 将 总 硕 外 主 没 次 。 
T T T T 
00 02 04 606 08 4.0 00 02 04 066 08 10 
说 法 5 说 法 6 
请 足 旅游 业 令 生 称 翻 点 。 民 屁 慌 应 尘 投 资 寺 态 洲 游 。 
00 02 04 66 08 10 00 02 04 06 08 1.0 
动 动笔 解答 
分 析 师 主观 概率 表 在 散 点 图 上 看 起 来 如 何 ? 
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说 法 2 
策 兰 斯 下 一 季 将 收购 欧 航 入 空 公司 。 


ou G2 D4 V6 JB 19 0.9 Q.2 04 UE uy 1.9 


对 这 此 说 法 分 折 冯 在 各 的 


一 宰 ， | 

说 法 3 说 法 4 

类 南 今年 将 减 科 - | 披 南 芒果 今年 将 或 励 多 困 投 资 。 
E 
一 一 一 + 一 一 一 2 : 
00 C2 04 26 108 19 有 00 02 04 06 0.8 1.9 

| 意见 分 虑 所 率直 赵 凡 205 ， 只 有 
这 里 法 蕊 者 分 共 训 wT AN 

说 法 5 | 六 说 法 6 

9 im / = i 2 = ; 2 

印 沦 旅 洲 业 今 丰 将 竹 身 ， / | 羽 尼 或 春 将 投资 生态 旗 游 。 | 
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首席 执行 官 欣 党 你 的 工作 
发 件 人 : 背 水 投资 公司 首席 执行 官 
收 件 人 : Head First 
主题 ， 谢 谢 | 


现在 这 东西 的 确 大 有 帮助 。 我 能 看 出 ， 我 们 确实 还 有 好 些 方面 需要 
集中 力量 搞 些 更 好 的 消 恩 。 


员工 们 看 来 并 没有 真正 的 分 歧 ， 这 真是 太 好 了 。 


从 现在 开始 ， 除 非 分 析 师 们 用 主观 概率 给 我 提供 分 析 ， 否 则 我 什么 
也 不 想 听 (客观 概率 也 可 ， 要 是 他 们 能 办 到 的 话 ) 。 


你 能 帮 我 把 这 些 分 此 按照 分 卜 严 重 程度 排 个 队 吗 ? 我 想 知 道 哪个 说 
法 是 最 有 争议 的 。 


首席 执行 官 
每 个 人 都 能 理解 主观 概率 ， 但 它 远 没有 得 到 充分 的 运用 。 


优秀 的 数据 分 析 师 同时 也 是 优秀 的 沟通 者 ， 主 观 概 率 则 是 一 种 向 别人 精 
确 地 传达 你 的 想法 和 信念 的 富有 局 示 性 的 表达 方法 。 


动 动脑 


用 哪 种 方法 量度 分 歧 和 评定 问题 能 让 首席 执行 官 一 眼 束 看 出 最 严重 
的 分 皮 和 问题 ? 


标准 偏差 量度 分 析 点 与 平均 值 的 偏差 
你 想 使 用 标准 偏差 ， 标 准 偏差 量度 的 是 典型 的 分 析 点 与 数据 集 平均 值 的 


i 


数据 集中 的 大 部 分 点 都 会 落 在 平均 值 的 一 个 标准 偏差 范围 内 。 


一 个 标准 仿 差 =0.1 


标准 偏差 的 单位 取决 于 测量 单位 ， 在 上 面 的 例子 中 ， 偏 离 平 均值 一 个 标 
准 偏差 等 于 0.1， 或 者 说 10%， 尽 管 不 少 点 都 偏离 两 个 或 三 个 标准 偏差 ， 
但 大 部 分 点 都 比 平均 值 高 或 低 10% 。 


在 此 可 以 用 标准 偏差 量度 分 履 。 主 观 概 率 偏 离 平 均值 的 标准 偏差 越 大 ， 
分 析 师 们 在 假设 成 立 的 可 能 性 方面 的 分 歧 束 越 大 。 


用 2xce( 中 的 SZTDE 如 公 夭 
计算 标准 偏差 . 


=STDEYV (数据 范围 ) 
练习 


I 然后 ， 按 照 分 层 程 度 从 高 到 低 给 问题 排 
予 oO 
你 会 用 哪个 公式 计算 说 法 1 的 标准 偏差 ? 


数 后 已 经 醒 转 值 置 ， 双 村 洒 间 - 


+ 准 仿 类 训 可 以 徘 济 了， 
标准 偏 妆 能 可 以 状 及 www.headfirstiahs.com/baoks/hfda/ 
hrfda_chOr_ data trarsposed.xils 
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练习 解答 
你 发 现 了 哪个 标准 偏差 ? 
你 会 用 哪个 公式 计算 说 法 1 的 标准 偏差 ? 
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营 春 个 说 英 夏 误 这 相 骂 数 ， 
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党 
~ 和 = 
aasrm A 


世上 没有 傻 问 题 


问 :， 主观 概率 不 算 有 某 种 欺骗 性 吗 ? 


答 : 欺骗 性 ? 它 的 欺骗 性 要 比 “ 的 确 可 能 ”之 类 的 含糊 说 法 低 得 多 。 听 别 
人 说 话 的 人 可 能 会 在 别人 说 的 话 里 加 入 各 种 各 样 的 含义 ， 因 此 ， 指 定 一 
个 概率 实际 上 古 一 种 欺 驴 性 小 得 多 的 传达 个 人 信念 的 办 法 。 


间 ， 我 的 意思 是 ， 当 有 人 看 到 这 些 概率 的 时 候 ， 难 道 不 可 能 ( 掀 娄 ， 用 
了 这 个 词 ) 有 这 种 印象 ， 给 出 概率 的 人 看 上 去 对 自己 信念 很 肯定 ， 其 实 
他 们 心里 并 不 是 那么 肯定 ? 


管 : 你 的 意思 是 说 ， 因 为 数字 是 白 纸 黑 字 ， 所 以 看 起 来 要 比 实际 情况 显 
得 更 有 说 服 力 ? 


问 :， 正 是 。 

答 :， 这 个 顾虑 有 道理 。 但 主观 概率 像 其 他 数据 分 析 工 具 一 样 : 如果 以 其 
骗 为 目的 ， 那 么 编 人 是 很 容易 的 ;但 只 要 确保 客户 知道 你 给 出 的 概率 具 
有 主观 性 ， 那么 ， 精 确 地 指出 你 的 信念 ， 实 际 上 对 客户 是 个 天 大 的 恩 
间 :”Excel 能 画 这 些 有 小 点 点 的 奇特 图 形 吗 ? 


答 :， 能 画 ， 但 比较 麻烦 。 这 些 图 形 是 用 一 个 叫做 R 的 程序 画 的 ， 里 面 有 
一 个 函数 dotchart。 你 会 在 后 面 的 草 世 里 领略 到 R 的 魅力 。 


生得 符 。 从 售 以 后 我 要 根据 这 种 分析 
制定 经 营 策 略 : 结果 肯定 一 片 史 明 。 


\ 大 老 极 


俄罗斯 宣布 售 出 所 有 油田 ， 称 对 商业 失去 了 信心 
售 人 转变 ， 俄 罗斯 总 统 对 国有 工业 噬 之 以 鼻 


“石油 业 到 此 为 止 >， 俄 罗斯 总 统 今日 持 间 在 莫斯科 新 闻 发 布 会 上 语 
惊 四 座 , “我 们 对 这 个 行业 已 经 失去 信心 ， 对 开采 资源 不 再 感 兴 


太 煤 了 ! 我 们 都 预测 俄罗斯 会 
继续 保持 对 这 个 行业 的 信心 。 


分 析 钙 


这 条 新 闻 让 你 措手不及 


分 析 师 们 的 最 初 反 应 是 深 感 忧虑 。 背 水 投资 在 俄罗斯 石油 业 投 资 巨大 ， 
A 00 这 一 后 你 已 经 看 


说 法 1 
俄罗斯 下 一 季 会 补贴 石油 业 。 


可 这 条 新 闻 会 导致 这 些 投资 的 价值 大 幅 缩水 ， 因 为 人 们 会 突然 觉得 俄 罗 
斯 石油 业 出 大 问题 了 。 但 话 又 说 回来 ， 这 个 说 法 可 能 是 俄罗斯 的 一 种 策 
略 ， 实 际 上 他 们 可 能 根本 不 打算 出 售 油田 。 

动 动笔 

这 表示 你 的 分 析 错 了 吗 ? 


你 该 怎么 处 理 这 个 新 信息 ? 


动 动笔 解答 
你 大 错 特 错 了 吗 ? 


记 仿 为止 ， 哉 们 已 经 讲 过 很 多 今 析 工 具 ， 可 
馆 其 中 有 一 个 能 够 用 来 指出 好 何 修 订 去 现 
构 率 ， 


动 动笔 
最 好 选 一 种 能 够 把 新 信息 整合 到 你 的 主观 概率 结构 中 的 分 析 工 具 。 
你 为 什么 选择 该 工具 ? 


实验 设计 ? 


最 优化 ? 


美观 的 图 形 ? 


假设 检验 ? 


贝 叶 斯 规则 ? 


动 动笔 解答 


最 好 选 一 种 能 够 把 新 信息 整合 到 你 的 主观 概率 结构 中 的 分 析 工 具 。 
你 为 什么 选择 该 工具 ? 


实验 设计 ? 


假设 检验 ? 


贝 叶 斯 规则 是 修正 主观 概率 的 好 办 法 


贝 叶 斯 规则 可 不 是 专门 用 来 分 析 蜥 蝎 流感 的 ! 亿 对 于 主观 概率 也 大 有 作 
用 ， 通 过 它 可 以 把 新 证 据 整合 到 针对 假设 条 件 的 信念 中 。 试 算 一 下 这 个 
更 常用 的 贝 叶 斯 规则 ， 其 中 H 代 表 假 设 “( 或 者 基本 概率 ) ，E 代 表 新 证 据 


这 是 用 来 计算 蘑 人 患 蜥 


Fa 蝎 流 感 概率 易 公 式 . 


P(L)P(+IL) 
POL | 
P(DL)PHIL) + P(~L)POH~T) 
a a 2 设 罕 - 必 
兴业 芷 据 沉 次 假 忆 区 概 弟 Fe 汪 本 if 吉 a 本 未 
车 概 序 ， ~ 好 f ee 
pik 惑 Ka wv 
by »w Pp(HIP(IFH) 
ee 
POHIPCEIH) = PE--HYp(El-H) 
x 本 1 内 人 
o> - 吕 立 岂 机 李 区 素 在 恨 这 大 成 去 阐 共计 


使 用 贝 叶 斯 规则 求 主观 概率 的 根本 在 于 找 出 在 假设 成 立 的 条 件 下 ， 证 据 
出 现 的 概率 。 


当 你 严格 要 求 目 己 将 一 个 主观 概率 分 配给 这 个 统计 值 之 后 ， 贝 叶 斯 规则 
下 能 算出 其 余数 据 。 


你 已 经 有 了 这 些 数据 : 


> 


已 知 。 


你 只 需要 让 分 析 师 们 给 你 这 些 数据 : 


这 各 麻 频 千 嘛 ? 为 什么 不 回头 击 找 
分析 渍 们 ， 让 他 们 根据 自己 对 这 些 事 
件 的 反应 给 出 新 的 王 观 概率 ? 


是 可 以 。 让 我 们 看 看 这 意味 着 什么 .…… 
面对面 


今夜 谈 ， 贝 叶 斯 规则 先生 和 直觉 先生 


直觉 : 贝 叶 斯 规则 : 

我 不 明日 ， 为 什么 分 析 

师 们 不 让 我 男 外 再 给 一 个 

主观 概率 ， 上 一 次 我 不 是 

做 得 很 好 嘛 。 
你 当然 很 棒 ， 我 迫不及待 地 要 把 你 第 一 次 提 
供 的 主观 概率 当做 基础 概率 。 


哦 ， 谢 谢 你 投 我 信任 

票 ， 但 我 仍然 对 分 析 师 得 

到 我 的 第 一 意见 后 束 把 我 

一 脚 跑 开 不 以 为 然 。 
啊 ， 并 非 如 此 ! 你 依然 非常 重要 ， 我 们 需要 
你 提供 更 多 的 主观 概率 ， 指 出 我 们 在 假设 成 立 
I 


我 还 是 不 明 白 ， 为 什么 
我 不 能 直接 给 你 一 个 新 主 
观 概 率 ， 指 出 俄罗斯 将 继 
续 文 持 石 油 业 的 几率 ? 


用 我 来 处 理 这 些 概率 是 一 种 严谨 、 正 式 的 方 
法 ， 可 以 将 新 数据 整合 到 分 析 师 的 信念 结构 
中 。 此 外 ， 即 使 分 析 师 意识 到 目 己 的 错误 ， 我 


真 的 有 人 会 这 样 想 吗 ? 

当然 ， 我 明白 有 些 人 在 计 

算 患 病 概率 时 会 用 你 ， 可 

ee 

吗 ? 
不 错 ， 确 实 ， 分 析 师 当然 不 必 一 有 痢 消 息 惑 
用 我 。 但 如 果 风 险 太 大 ， 他 们 束 确 实 需 要 我 。 
如 条 有 人 觉得 目 己 可 能 得 了 某 种 病 ， 或 者 有 人 
要 进行 大 额 投资 ， 他 吏 想 用 分 析 工 具 。 

我 猜 ， 我 得 学 会 告诉 分 

析 师 在 合适 的 条 件 下 用 

你 。 我 就 是 希望 你 多 点 儿 


直 筑 


要 是 你 愿意 ， 我 们 可 以 画 1000 幅 俄罗斯 形势 
图 ， 就 像 上 一 章 一 样 .……. 


别 ! 哥 儿 们 ， 太 烦人 
下 
练习 

下 面 这 张 电子 表格 列 出 了 从 分 析 师 们 那儿 收集 的 两 组 新 主观 概率 。 


1) PEIS1 : 每 位 分 析 师 针对 “俄罗斯 宣布 他 们 将 卖 出 油 
田 ”(E) 给 出 的 主观 概率 ， 假 设 条 件 ， 俄 罗斯 将 继续 支持 石油 业 


(S1) 

2)  P (ElI~S1) ， 每 位 分 析 师 针对 “俄罗斯 宣布 他 们 将 卖 出 油 

0 
~ 1 oO 


这 等 在 未 更 新 话 握 时 ， 
PP 药 要 束 。 
W 


写 出 一 个 见 趾 其 规划 去 汰 式 ， 计 算 PIS1jEI。 


六 __ 颁 来 下 载 ! 六 


们 是 两 列 新 典 据 ， 淋 


www.headfirstlabs.corrvbookshfdar 
hida_chO7_new_probs.x!s 


as 区 
1 Analvst PIS1) 


中 


在 这 里 写 入 人 公式， 加 
复制 /站 粘 丛 其 他 分 本 
是 化 拍 ， 


记 又 是 一 个 习 PIH)P(EIH) 
叶 斯 规则 . PUIIE) = 


3 P(IDPCEIIT) + P(~IDP(EI-ID) 
oa 可 解 答 


你 用 哪个 公式 来 实现 贝 叶 斯 规则 ， 并 以 此 得 出 “俄罗斯 是 否 文 持 石 油 
业 ” 的 新 主观 概率 ? 


这 个 公关 综合 了 分 析 师 的 大 太 a =(B2*D2) / (B2*D2+C2*E2) 
概 举 入 分析 汤 对 新 数据 的 装 


断 ， 必 此 得 出 新 曲 评 估 结 录 . 


WOW wp Tod Yh! Wor arid 


| rr a 


I A B Can 和 E 
1 Analyst P(S1) Pl~51) P(EIS1) P(El~S1) P(S1]E 

EA 1 87% 13% 54% 61% 
3 2 88% 12% 57% 67% 86% 
胡 3 89% 11% 55% 39% 92% 
5 4 91% 96% 58% 54% 92% 
6 5 91% 9% 58% 53% 92% 
7 6 929%b Bo 6436 49% 94%% 
a 入 87% 13% 65%0 54% 89%% 
9 B 92% Bo9%6 5099 45% 93%w 
10 9 88% 12% 53% 55% 88% 
11 10 92% 890 62% 51% 93 驹 
12 11 B88% 12% 56%% 56% 88% 
13 12 89% 11% 59% 62% 890% 
二 13 92% 80% 61% 62% 92% 
15 14 88% 12% 66% 40% 92% 
16 15 89% 11% 54%% 29% 94%% 
4 16 90% 10% 69% 58% 91% 
18 17 92% Bo% 67% 55% 93 听 
19 18 91% 9% 14% 55% 72 哆 


1i% 22% 93% 66%w 
65% 


= 这 再 新 碌 据 看 起 来 很 瞳 | 让 宾 们 
把 这 些 款 据 画 成 淫 点 图 ， 看 看 和 
基础 报 率 相 比 邮 何 | 


动 动笔 
用 对 开 页 上 的 数据 在 下 图 中 画 出 每 位 分 析 师 的 主观 概率 点 。 


在 这 瑟 遇 中 画 由 
泽 过 修正 访 指 率 
"SL 


、、 
a 


[ 下 到 而 对 | 
0.0 0.2 0.4 0.6 0.8 0 


作为 参照 ， 图 中 给 出 了 新 报导 出 炉 之 前 大 家 对 “俄罗斯 是 否 继续 支持 
石油 业 ” 这 个 假设 的 信念 〈 散 点 ) 。 


0.0 0.2 0.4 D.6 0.8 1.0 


新 主观 概率 点 和 有 旧 主 观 概率 点 的 分 布 情况 相 比 如 何 ? 


首席 执行 官 完 全 知道 该 怎么 处 理 这 条 新 信息 了 


入 信者 让 直 出 庄 罗 茹 首 产 ， 徊 求 数控 吕 
且 出 遇 芒 六 少 析 轩 和 仑 胸 售 佑 让 江淮 定 闪 
维持 法 


经 过 仔细 调查 ， 分 析 师 们 得 出 结论 : 不 管 俄罗斯 是 不 是 真 的 会 停止 支持 
石油 业 ， 俄 罗斯 媒体 都 有 可 能 报导 出 售 油田 的 消息 。 


因此 ， 报 导 最 终 并 未 给 他 们 的 分 析 带 来 太 大 改变 ， 虽 然 有 三 个 例外 ， 但 


在 相同 假设 条 件 下 ， 分 析 师 们 对 于 "俄罗斯 会 文 持 石 油 业 ”的 新 主观 概 
[P 《AS1E) ] “与 他 们 先前 给 出 的 主观 概率 “ [P (S1) ] ”非常 相 
以 。 


但 分 析 师 对 了 吗 ? 
俄罗斯 股民 欢欣 鼓舞 ! 


分 析 师 是 对 的 ， 俄 罗斯 所 谓 的 卖 出 油田 十 虚 张 声势 ， 当 众人 意识 到 这 一 
上 态 ， 股 市 立即 反弹 ， 这 对 于 背 水 投资 来 说 真是 太 好 了 。 


看 来 你 的 主观 概率 让 痛 水 投资 公司 冷静 下 来 ， 大 家 各 得 其 所 ! 


第 一 次 立 观 概率 分 析 
2 


= 


艳 填 导 ' 六 


je 一 划 和 


E] 旧 ] 


流 笠 护 第 委 家 吉 吧 ， 入 将 是 长 测 合 作 
蝎 升 监 。 别 抠 也 用 曾 鸡 亚 放 让 同一 个 站 
EE 


和 插 人 类 的 天 性 作 分 析 


现实 世界 的 风云 变幻 让 分 析 师 难以 料 事 如 神 。 

总 有 一 些 数据 可 望 不 可 及 ， 即 使 有 所 能 及 ， 最 优化 方法 也 往往 艰深 耗 时 
。 所幸 ， 生 活 中 的 大 部 分 实际 思维 活动 并 非 以 最 理性 的 方式 展开 ， 而 是 
利用 既 不 齐全 也 不 确定 的 信息 ， 和 赁 经 验 进 行 处 理 ， 迅 速 做 出 决策 。 奇 就 
奇 在 这 些 经 验 确 实 能 够 赛 效 ， 因 此 也 是 进行 数据 分 析 的 重要 而 必要 的 工 


逮 遇 集 回 市 议会 提交 了 报告 


通过 集 是 由 数据 邦 市 市 政府 资助 的 一 个 非 赢 利 团体 ， 他 们 进行 公共 宣 
传 ， 劝 说 人 们 不 要 乱 扔 垃圾 。 


他 们 刚刚 把 最 近 的 工作 结果 汇报 给 了 市 政府 ， 结 果 出 卑 意料 。 


no 
艇 据 堡 布吉 二 战 量 ”人 人 


泪 必 了 10% | 


O 
Ps 
乱 汉 二 昨 ， 我 们 就 在 一 个 日向 


最 后 一 句 话 实在 让 人 担心 ， 要 是 没 法 说 服 市 议会 相信 通明 集 的 公共 推广 
活动 符合 市 政府 预期 ， 道 交集 很 快 就 会 车 上 大 麻烦 。 
遂 过 集 确实 把 镇 上 打扫 得 干 干净 净 


在 站 遇 集 开始 管理 之 前 ， 数 据 邦 市 确实 可 谓 脏 乱 差 ， 有 些 居 民 不 珍 惜 家 
EE 0 这 人 破坏 了 数据 邦 市 的 环境 和 外 观 ， 可 但 过 集 来 了 以 
百 ， 一 切 都 变 了 。 


要 是 市 政府 削减 资金 就 糟 了 ， 冰 过 集 需要 你 帮忙 告诉 大 家 他 们 的 活动 是 
成 功 的 ， 这 样 市 议会 号 会 继续 提供 资金 。 


疙 吕 千 说 红 们 部 活 盐 
有 最 水 …… 条 忙 咏 )} 


呈 太 莫 巡 全 歇 落 池 碟 及 
| 
此 滩 潮 关 总 蜗 


公共 服务 宜 情 | » 刊物 出 版 
学 校 未 育 AS 
渍 理工 作 | 
时 益 没 多 鹿 茂 谤 贡 玉 
忆 市 特意 新 六 记 


动 动笔 
想 出 可 能 使 用 的 计量 方法 完成 任务 。 到 底 该 从 哪里 获得 散乱 垃圾 的 
城 小 量 数据 呢 ? 


动 动笔 解答 
ee 至 导致 散乱 垃圾 量 减 小 


省 通 集 已 经 计量 了 和 目 己 的 工作 效果 


站 区 集 计 量 了 自己 的 工作 成 果 ， 但 不 是 计量 以 上 练习 中 所 设想 的 垃 专 
量 ， 他 们 男 有 一 套 : 公众 调查 。 下 面 是 一 些 调查 结果 。 


[一 i | 
ee 公众 问 和 一 了 多 和 过 

I Ee 公众 问卷 
公办 同 善 你 的 答 寄 

| 末 后 旦 市 4 市 去 六 共 记 二 如 加 | 到 

| igi 三 部 亩 全 活动 [37 四 证 

| 有 人 .红壤 圾 ， 安 劲 他 们 寞 搞 涉 拱 渤 幸 以 御 呈 7。 | 是 

| 条 让 为 四 扫 搞 闽 是 娄 推 闻 市 疝 一 个 外 攻 吧 站 | 本 

ES 究 了 解 到 六 落 乱 殷 增 还 的 下 杰作 了 13 加 | -i 

[Bs 符 市 里 渤 各 次 办 逝 丫 奖 涩 越 育 污 到 1 ? | 


他 们 的 根本 策略 是 I ， 让 他 们 不 再 乱 扔 垃圾 。 让 我 们 
看 看 他 们 的 总 结 … 


收 培 圾 ， 收 培 
域 路 | 


公众 问卷 ] 去 年 


是 说 这 做 六 某 活动 吗 ? 


村 是 车 小 洁 | 中 Kl 人 大妈 >] 反 ] 让 却 s 会 天 佬 门 冯 I bs #*:' 进 EN 党 祁 "7 了 下， 


为 臣 投 垃 城 是 狼 据 洛 市 的 一 个 问 8 


闷 前 先 1} 你 了 解 甩 产 半 和 所 塘 声 的 宣 要 性 了 吗 ? 


| 你 支 河 方 里 妾 入 资助 让 六 华 艾 教 言 污 动 王 ? 


他 们 的 任务 是 减少 散乱 垃圾 量 


而 向 人 们 宣传 改变 行为 习惯 的 必 妥 性 将 减少 散乱 垃圾 量 ， 对 吗 ? 这 是 遂 
通 集 的 基本 立场 ， 调 查 结果 确实 表明 公众 意识 有 所 改善 。 


但 市 议会 对 此 报告 感受 不 深 ,你 需要 帮助 遂 帝 集 弄 清楚 他 们 是 否 完 成 了 
任务 ， 然 后 说 服 市 议会 相信 他 们 工作 有 成 效 。 


动 动笔 
偶 毅 集 的 工作 成 果 是 否 表 明 数 据 邦 市 的 散乱 垃圾 量 有 所 减 小 ? 


动 动笔 解 管 
数据 是 否 表 明 散 乱 垃 圾 量 在 道 遇 集 的 努力 下 有 所 减 小 ? 


计量 垃圾 量 不 可 行 


我 们 当 划 汝 哺 计 重 境 极 量 ， 宁 京 上 ,计量 散 我 域 
雨 电 太 咖 己 ， 物 访 近 苯 也 太吉 亲 ， 识 翅 人 人员 都 认 
范 数 据 候 市 前 所 衫 “10 吕 ”是 担 亡 网， 除了 进入 
谓 刘 ,潜能 告诉 我 们 还 刍 做 点 位 必 7 


这 可 能 是 个 问题 。 市 议会 硕 望 看 到 牟 遇 集 拿 出 证 据 证 明 他 们 的 活动 减少 
了 垃圾 量 ， 但 我 们 给 市 议会 的 只 有 这 份 观点 调查 表 。 


如 果 直 接 计 量 垃圾 量 在 物流 上 的 确 不 可 行 ， 那 么 ， 提 供 垃 圾 减 小 量 数 据 
这 个 要 求 可 能 会 让 前 遇 集 功 亏 一 筑 。 


问题 刁 销 ， 回 答 简单 


通过 集 明 白 ， 大 家 布 望 他 们 做 的 是 减 小 散乱 垃圾 量 ， 但 他 们 决定 不 作 计 
量 ， 因 为 这 样 做 费用 太 高 。 


服 杨 部 市 冯 丰 大吉 这 样本 带 设 稚 ， 了 
这 办 法 快捷 、 方 便 、 清 楚 ， 可 这 并 不 是 市 议会 要 看 的 东西 。 


你 在 丈 守 评书 封 操 工 拉 条 三 ” 
上 砚 讨 池 昨 对 活动 性 
区 各 协 大 是 在 总 打 垃 执 ， 安 动 宰 们 把 六 把 丙 和 井 垃 状 负 1 了 


年内 为 凸 殷 训 天 是 汶 培 孙 市 的 “个 导 弄 于? 


EE 了? 


你 支持 方 年 章 次 二 遂 这 不 四 竹 凋 击 动 二 ? 


这 是 避 明 集 从 入 们 那 
心 调 查 到 的 观点 情况 ， 
对 刁钻 的 问题 做 出 这 种 反应 实 属 极其 常见 、 极 其 人 性 的 现象 。 我 们 都 磁 


到 过 在 经 济 上 或 认 知 上 (下 面 很 快 会 谈 到 这 一 点 ) 很 费力 的 刁钻 问题 ， 
对 于 这 种 环 手 的 问题 ， 人 们 天 生 的 反应 了 束 是 答 非 所 问 。 


在 分 析 问 题 时 ， 这 种 简单 化 的 方法 可 能 会 显得 极其 错误 ， 尤 其 对 于 数据 
分 析 师 来 说 ， 但 可 笑 的 是 ， 这 方法 在 很 多 情况 下 确实 有 效 ， 而 且 ， 正 如 
你 即将 看 到 的 ， 有 时 这 是 唯一 的 选择 。 


数据 邦 市 的 散乱 垃圾 结构 复杂 


这 是 佣 壳 集 的 内 部 调查 文件 ， 文 件 记 录 了 你 有 可 能 想 计量 的 散乱 垃圾 项 
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这 是 薄 过 集 总 监 对 这 个 庞大 的 系统 的 解释 ， 她 还 谈 了 这 种 复杂 性 对 还 歇 
集 的 工作 造成 的 影响 。 


发 件 人 : 道 壳 集 总 监 

收 件 人 : Head First 

主题 : 我 们 为 什么 无 法 计量 垃圾 量 

为 了 计量 垃圾 量 ， 我 们 得 在 所 有 联络 点 (处 理 站 、 填 埋 点 等 ) 安排 
人 市 里 的 工人 不 会 为 我 们 记录 数据 ， 因 为 他 们 已 经 


在 联络 点 安排 员工 会 让 我 们 的 费用 变 成 市 里 给 我 们 的 费用 的 两 倍 ， 
就 算 不 干 别 的 ， 光 是 计量 散乱 垃圾 量 ， 也 没有 足够 的 钱 来 完成 。 


另外， 市 议会 只 关 ， 心 垃圾 量 是 完全 错误 的 ° 


数据 邦 市 的 散乱 垃圾 其 实 是 一 个 复杂 的 系统 ， 扔 垃圾 的 人 各 种 各 
样 ， 垃 圾 种 类 各 种 各 样 ， 扔 垃圾 的 地 点 各 种 各 样 ， 忽 视 整 个 系统 


只 关心 一 个 变量 是 不 对 的 。 
无 法 建立 和 运用 统一 的 散乱 垃圾 计量 模型 

为 了 计量 或 设计 一 个 最 优化 散乱 垃圾 控制 方案 而 创建 的 任何 模型 都 需要 
考虑 极 多 的 变量 。 


不 仅 需 要 用 常用 的 量化 理论 来 了 解 这 些 元 素 之 间 的 相互 作用 ， 还 要 知道 
如 何 处 理 其 中 一 些 变量 (决策 变量 ) ， 以 便 使 散乱 垃圾 量 降 至 最 低 。 
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市 议会 第 望 油 乱 粳 姑 量 赣 消 说 时 ， 人 我 们 
党 要 点 才 遂 通信 的 活动 做 紊 了 这 一 点 .一 一 


就 算 手 关 有 所 有 的 数据 ， 这 也 是 个 麻烦 事 ， 何 况 你 已 经 知道 ， 要 得 到 所 
有 这 些 数据 费用 太 高 。 


还 有 可 能 让 市 议会 看 到 他 们 想 看 的 东西 吗 ? 
吉尔 : 乱七八糟 ， 市 议会 要 我 们 拿 出 没 法 拿 出 的 东西 。 


弗兰克 : 是 啊 ， 即 使 我 们 能 够 提供 减 小 的 垃圾 量 数 据 ， 也 没有 什么 
用 5 示人 人 村 


乔 ; 咽 ， 这 些 数据 不 会 让 市 议会 满意 。 


尔 : 不 错 ， 我 们 的 工作 不 只 是 为 了 让 市 议会 满意 ， 而 是 减 小 垃圾 


乔 : 我 们 不 能 捏造 些 数据 吗 ? 比如 自己 估计 垃圾 量 

弗兰克 : 这 是 个 想法 ， 但 很 不 可 靠 ， 我 意思 是 ， 市 议会 看 来 的 确 是 
人 要 是 我 们 捏造 些 主观 数据 来 冒充 垃圾 量 数据 ， 他 
门 可 能 兮 。 


吉尔 : 捏造 数据 肯定 会 让 俐 壳 集 的 资金 泡汤 ， 也 许 我 们 可 以 说 服 市 
议会 相信 观念 调查 结果 的 确 是 垃圾 量 减 小 的 可 靠 数据 ? 

弗兰克 : 前 壳 集 已 经 试 过 了 ， 没 看 见 市 议会 在 对 他 们 吃 叫 吗 ? 
吉尔 : 我 们 可 以 搞 个 评 佑 ， 除 了 公众 观念 ， 再 加 上 一 些 别 的 变 

也 许 我 们 该 试 着 把 能 用 的 各 个 变量 集中 起 来 ， 然后 再 对 所 有 其 余 变 
量 进行 主观 猜测 ? 


弗兰克 : 虽 ， 这 也 许 行 .….. 


得了 ! 载 们 窟 韶 请 的 得 太 
氨 厅 了， 为 什么 处 鳅 多 选 一 
哄 个 食量 分 析 信 析 ， 扰 后 访 臣 
色 翌 就 怎么 样 ? 


确实 可 以 从 增加 几 个 变量 开始 。 


如 果 你 打算 选取 一 两 个 变量 ， 然 后 根据 这 些 变 量 对 整个 系统 作出 结论 ， 
据 此 评价 通过 集 的 工作 成 效 ， 这 就 是 在 使 用 局 发 法 .…… 


启发 法 是 从 直觉 走向 最 优化 的 桥梁 


你 是 抠 冲 动 做 决定 ， 还 是 任 几 个 精心 选取 的 关键 数据 做 决定 ?” 或 是 构建 
一 个 包含 所 有 变量 的 模型 ， 然 后 得 出 最 佳 答案 ? 


答案 可 能 是 以 上 都 对 ， 而 这 些 答案 却 代 表 完 全 不 同 的 思维 方式 一 一 认识 
到 这 一 点 很 重要 。 
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每 当 解 决 一 个 最 优化 问题 ， 束 会 找到 代表 目标 函数 最 小 值 或 最 大 值 的 一 
个 或 多 个 答案 。 


对 于 数据 分 析 师 来 说 ， 最 优化 可 谓 理想 境界 ， 要 是 所 有 的 分 析 问 题 都 能 
确定 无 疑 地 获得 解答 ， 可 谓 顺 风 顺 水 。 然 而 ， 大 多 数 思维 活动 都 是 启发 


式 的 。 
术语 角 

启发 法 “1，( 心 理学 定义 ) 用 一 种 更 便于 理解 的 属性 代替 一 种 难 解 
的 、 令 人 困惑 的 属性 。2，( 计 算 机 科学 定义 ) 一 种 解决 问题 的 方 
法 ， 可 能 会 得 出 正确 答案 ， 但 不 保证 得 出 最 优化 答案 。 


有 些 心 理学 家 甚至 论述 ， 人 类 的 一 切 推理 都 是 启发 式 的 ， 而 最 优化 是 一 
种 理想 境界 ， 只 有 在 问题 超 规范 的 情况 下 才能 发 挥 作 用 。 


然而 ， 不 管 是 谁 ， 只 要 打算 迎战 超 规范 的 问题 ， 就 要 做 个 数据 分 析 师 ， 
因此 还 不 能 丢掉 solver 。 只 是 别 忘 了 在 分 析 工 具 装 备 中 收藏 构思 合理 的 启 
发 式 决策 方案 这 个 必 不 可 少 的 工具 。 

世上 没有 傻 问题 


问 : ”把 一 个 无 法 保证 得 到 正确 答案 的 决策 过 程 叫 作 数据 分 析 ， 真 稀奇 
难道 不 该 把 这 种 事 叫 作 猜 想 吗 ? 


管 : 不 能 这 么 说 ! 你 看 ， 数 据 分 析 的 根本 在 于 妥善 分 解 问题 、 为 数据 套 
0 ` 作出 正确 的 判断 ， 但 并 不 保证 次 次 得 到 
正确 答案 。 


问 : 假如 我 的 目标 是 最 优化 ， 可 我 稍稍 试 了 一 下 启发 式 思考 ， 感 觉 不 
错 ， 难 道 我 束 说 不 上 在 坚持 寻找 最 优化 结 采 了 ? 


管 : 那样 说 很 公正 。 要 是 手头 有 更 好 的 、 可 行 的 最 优化 工具 ， 当 然 没 人 
想 用 启发 式 分 析 工 具 ， 但 重点 是 要 认识 到 ， 局 发 法 是 思维 过 程 的 基本 组 
成 部 分 ， 也 是 数据 分 析 方 法 的 基本 组 成 部 分 。 


问 : ”那么 心理 学 对 启发 法 的 定义 和 计算 机 科学 对 启发 法 的 定义 有 何 区 
别 ? 


管 : ”其实 这 两 种 说 法 非常 相似 。 在 计算 机 科学 中 ， 启 发 式 算法 能 够 解决 
一 些 问题 ， 但 人 们 无 法 证 明 这 种 算法 能 够 无 一 例外 地 得 到 正确 答案 ， 计 
算 机 科学 中 的 局 发 式 算 法 常 背 比 那些 能 够 保证 得 到 正确 答案 的 算法 更 
快 、 更 简单 ， 还 有 ， 往 往 一 个 问题 只 能 用 局 发 式 算 法 来 解决 。 


问 : ”这 和 心理 学 有 何必 然 关 系 ? 
管 : 心理 学 家 通过 实验 研究 发 现 ， 人 们 时 刻 在 使 用 认 知 启发 法 。 争 相 引 


起 人 们 注意 的 数据 实在 太 多 ， 于 是 人 们 必须 笃 经 验 作 决定 。 为 数 众多 的 
典型 经 验 在 人 们 的 脑海 里 根深 带 固 ， 总 的 来 说 ， 这 些 经 验 的 确 很 有 效 。 


问 : 人 类 的 思维 过 程 与 最 优化 过 程 并 不 相似 ， 这 颇 为 明显 ? 


答 : 各 人 有 各 人 的 看 法 。 对 于 那些 坚定 地 认为 人 类 是 理性 生物 的 人 来 
说 ,“ 人 们 不 是 以 较 全 面 的 方式 思考 所 有 感官 信息 ， 而 是 使 用 收效 显著 但 
含混 不 清 的 经 验 法 则 ”这 个 说 法 可 能 会 让 他 们 感到 不 快 。 


问 : 这 么 说 ,“ 大 量 推 理 都 是 启发 式 的 * 这 个 事实 说 明 “ 人 是 非 理 性 的 ”? 


答 : 这 要 看 你 怎么 定义 理性 这 个 词 。 如 果 理 性 代表 这 种 能 以 内 电 
般 的 速度 处 理 海量 信息 的 每 一 个 数位 、 构 建 完美 的 模型 利用 这 些 信 息 、 
能 够 无 可 挑 蜀 地 执行 模型 给 出 的 建议 ， 那 么 ， 没 错 ， 你 是 非 理性 的 。 
问 : 这 真是 对 理性 的 高 标准 定义 。 


管 : 如 果 你 是 一 台 计 算 机 ， 这 标准 就 不 算 高 。 
问 : 这 正 是 我 们 让 计算 机 为 我 们 做 数据 分 析 的 原因 | 


管 : Solver 之 类 的 计算 机 程序 生存 在 认 知 世 界 里 ， 这 个 世界 的 依据 信息 
由 你 决定 ， 而 你 对 依据 信息 的 选择 则 受制 于 目 己 的 思维 以 及 手头 的 数 
据 。 不 过 ， 只 要 有 了 这 些 依据 信息 ，Solver 就 能 以 完全 理性 的 方式 工作 。 


问 : 又 由 于 一 切 模型 都 是 错误 的 ， 但 其 中 一 些 是 有 用 的 ， 即 使 用 计算 机 
计算 最 优化 问题 ， 一 旦 应 用 范围 扩大 ， 也 会 与 局 发 式 算法 颇 为 相似 。 所 
选择 的 依据 数据 念 介 永远 无 法 洱 盖 与 模型 有 关 的 一 切 变 量 ， 于 征 只 得 挑 
选 最 重要 的 变量 。 


答 : 这 么 想 吧 .数据 分 析 的 根本 在于 工具 。 优 秀 的 数据 分 析 师 懂得 如 何 
使 用 各 种 工具 调整 数据 ， 以 便 解 决 现实 问题 。 对 于 目 己 是 否 够 理性 ， 没 
人 
9 工作 。 


间 : 但是， 数据 分 析 没 法 保证 得 到 所 有 问题 的 正确 答案 。 

答 :， 是 的 ， 没 办 法 保证 ， 要 是 你 不 小 心 忘记 了 这 一 点 的 话 ， 就 会 出 差 
错 。 分 析 存在 于 现实 与 模型 之 间 的 预期 差距 是 数据 分 析 的 一 个 重要 内 
容 ， 后 面 几 章 将 讨论 控制 误差 的 精 淇 技术。 


问 : 所 以 ， 虽然 启发 法 在 我 的 大 脑 里 根深 带 固 ， 但 我 也 可 以 形成 自己 的 
想法 ? 


管 : 一 点 儿 也 不 错 。 对 于 数据 分 析 师 来 说 ， 真 正 重 要 的 一 点 是 ， 明白 这 
种 现象 会 发 生 在 目 己 身 上 。 为 此 我 们 来 试 一 下 .……. 


使 用 快 省 树 
下 边 是 一 种 启发 法 ， 描 述 了 处 理 有 垃圾 需要 废弃 这 个 问题 的 不 同方 式 ， 


规则 很 简单 : 如 果 旁 边 有 垃圾 箱 ， 就 把 垃圾 扔 进 二 圾 箱 ， 否 则 ， 束 等 找 
到 垃圾 箱 后 再 扔 。 


我 要 处 理 食品 包装 袋 。 
附近 有 垃圾 箱 吗 ? 


是- 作 
将 包装 袋 扔 进 将 包装 袋 放 进口 袋 ， 
垃圾 箱 。 然后 去 别处 。 
现在 有 垃圾 箱 
了 吗 ? 


将 包装 袋 扔 进 
垃圾 箱 。 


这 种 描述 启发 法 的 图 形 被 称 为 快 省 树 ， 快 是 指 完成 这 个 过 程 费时 不 多 ， 
省 是 指 不 需要 大 量 认 知 资源 。 
市 议会 所 需要 的 是 能 够 估算 咀 壳 集 工作 质量 的 启发 法 。 他 们 现在 的 启 


发 
法 不 可 行 《我 们 必须 说 服 他 们 相信 这 一 点 ) ， 同 时 他 们 拒绝 接受 遗 壳 集 
现在 用 的 局 发 法 。 


_ 市 议会 的 启发 法 


信 巡 坎 集 开始 工作 后 ， 
所 散乱 增 圾 量 减 小 了 吗 ? 


= 硅 


继续 资助 圳 遇 集 停止 费 助 着 渴 蘑 


你 能 男 一 文 快 省 树 表示 一 种 更 好 的 启发 法 吗 ? 让 我 们 和 遂 表 集 谈 谈 ， 看 
看 他 们 对 更 可 靠 的 决策 过 程 有 何 想 法 。 


球 遍 集 的 局 发 法 


中 遇 集 开始 工作 后 ， 
大 们 的 观念 改善 了 吗 ? 


继续 资助 吉 远 集 停止 资助 退 壳 集 


是 否 有 更 简单 的 方法 评估 遵 过 集 的 成 就 ? 


使 用 启发 法 计量 侦 超 集 的 工作 指 的 是 在 下 面 这 些 变 量 中 选取 一 个 或 多 个 
进行 分 析 。 还 过 集 总 监 认 为 哪 种 方法 最 好 ? 


用 哗 出 吉 重 赴 行 宵 析 名 各 有 灵 全 
RE 丁 十 捞 次 战 明 我 友 镍 将 ? 


| 
FE J An 
7 ”i 
和 册 让 型 生 和 
ne Se 
,和 Fe 
LR | 斤 产 交 市 的 化 天 过 涝 : 
.570 er 匈 困 计生 的 坊 仅 
AFTRAG Dd 2 gt 
re ea ER 芭 冰 全 背 9 
十 去 辽东 大 二 
依 秆 避 Wr 
可 届 省 


yy 
最 网 六 


名 
ST i 

EE 可 以 寺 量 准则 了 ~ 器 有 

让 三 人 上 上 四 下 PE 其 要 cn RAY 
过 民生 于 生化 让 忆 泣 币 全 


和 仑 处 能 访 验 公 和 至 现 尖 调查 | 还 二 ， 正 此 坊 只 税 计 狂 敬 ， 未 
写 复 做 判 思 了 讲 福 吉 右 忆 式 而 订 量 所 有 明 表 乱 境 成 . 

和 冀 避 ， 汐 许 可 必 抽 未 阅 位 培 妖 注 理 工 。 看 强 灵 问题 症 衣 严 
章 的 癌 旺 ， 妥 乓 访 仙 定期 调查 清关 工 和 乱 音 工 ， 辣 问 位 们 
少见 了 条 少 过 站 关 ， 豆 能 党 提 否 烟 杰 的 情 学 ， 昌 到 全 面 ， 


保 刘 当 可 党 . 


动 动笔 
画 一 支 快 省 树 描述 市 议会 该 怎样 评估 中 过 集 的 成 束 ， 但 一 定 要 加 入 
遂 遇 集 认 为 重要 的 两 个 变量 。 

最 终 的 裁决 将 是 .是否 继 续 资 助 遂 壳 集 。 


动 动笔 解答 
你 创建 了 哪 种 局 发 法 评估 逮 遇 集 的 工作 成 束 ? 


尽 荡 你 自己 问 快 淮 村 可 能 十 所 不 同 ， 倡 
这 个 实 创 风 许 训 是 你 要 询 烙 妨 ， 


血 光 ， 市 说 安 党 要 访问 公 和 站 
堵 放 六 您 溪 反 生 是 知 于 起 . 


汇 酒 集 表 没有 促 健 入 各 


竟 和 朴 记 捉 止 六 抱 拉 诅 ? 
和 yi 累 妇 次 意识 二 所 


痪 ， 那么 土肥 绢 答 


心 果 公 丰 持 发 持 态 恋 ， 那 么 ba 和 伐 裔 集 的 省 也. 
回 体 垣 柜 浓 捍 工 加 启 坊 诅 音 - 


pe 固体 科 圾 清理 工 认为 散乱 垃 吉 旦 。 ”取消 资助 
三 小 了 吗 ? 


SN 和 人 用 这 本 居 必 取代 站 
< 诈 浏 重 培 起 唱 的 优 波 。 
净 续 资助 职 请 资助 
2 人 天 工 认 久 


这 还 是 遂 明 柴 想 要 的 结 健 。 没有 站 宗 ， 则 取消 次 时 ， 


听 说 你 们 在 重新 号 报告 ， 我 可 等 着 看 啊 ， 
未 这 我 项 望 你 们 能 像 所 有 其 他 染 赢 审 机 
构 禾 样 给 数据 部 来 钱 …… 一 帮 没 用 的 东 
是 . 


计 


看 来 至 少 有 一 位 市 议员 已 经 拿 定 了 主意 ， 混 


动 动笔 
这 位 市 议员 正在 使 用 启发 法 。 男 一 张 图 描述 他 的 思考 过 程 ， 体 现 他 


对 得 遇 集 的 预期 。 要 是 你 想 说 服 这 家 伙 相 信 你 的 启发 式 评估 设想 行 
之 有 效 ， 就 得 理解 他 的 推理 方式 。 


动 动笔 解答 
想 想 这 位 不 开心 的 市 议员 如 何 形成 目 己 的 预期 ? 


床 内 何 埠 决 道 通 


a 名 经验， 计 他 
池 非 遍 列 宙 槐 
表 玫 几何? 
其 他 小 闽 利 机 构 是 
aa 没有 时 藤 藻 起。 
莉 示 他 以 院 对 滥 调 储 报 杰 2 可 
站 “、、、 四 通信 是 设 用 的 


A 才 
验 洁 启 了 过 和 祥 网 及 应 ， 东 面 。 


固定 模式 都 具有 局 发 性 


固定 模式 必定 具有 局 发 性 : 处 理 固 定 模式 不 需要 大 费力 气 ， 而 且 速 度 超 
快 。 嘿 ， 有 了 固定 模式 ， 其 至 都 不 用 为 正在 判断 的 事情 搜集 数据 。 使 用 
启发 法 时 ， 固 定 模式 行 之 有 效 ;但 在 本 例 以 及 大 多 数 情 况 下 ， 固 定 模 式 
会 导致 做 出 欠缺 推理 的 结论 。 


局 发 法 并 非 百 试 不 亦 。 人 快 而 省 的 经 验 可 能 有 助 于 找 出 某 些 问题 的 答案 ， 
而 在 其 他 情况 下 ， 却 和 爷 入 为 主 地 让 你 做 出 不 恰当 的 判断 。 


我 如 何 裁决 
必 志 集 ? 


| 


刺探 性 地 
问 一 些 问 题 。 


坟 决 间 肖 集 拘 更 邮 | 
四 法 大 数 加 此 : 他 们 的 回答 


a 感人 至 深 吗 ? 


~ 


性 遇 集 很 出 色 . 退 壳 集 很 元 能 . 


局 发 法 有 可 能 危险 至 极 ! 


也 许 我 们 可 尺 收 集 一 些 散 据说 关 妹 卫 工 作对 歼 乱 境 极 请 
看 泪 ， 然后 就 可 以 把 我 们 原来 章 伟 析 这 同 决 业 启 安 法 和 
新 数据 一 起 报告 给 市 议会 . 


gs 


让 我 们 听 听 环卫 工人 的 说 法 .…… 
分 析 完 毕 ， 准 备 提交 


局 发 法 ， 手 头 数据 ， 再 加 上 环卫 工人 刚刚 给 你 的 这 段 答复 : 可 以 准备 向 
市 议会 解释 你 的 观点 了 。 


这 是 你 对 市 议会 驳 多 河 评估 
瞄 当 位 工 作 的 拷 断 ， 


公众 不 乱 折 垃圾 的 
意识 提高 了 吗 ? 


2 


固体 垃 坊 请 理工 认为 取消 资助 
垃圾 量 式 小 了 吗 ? 


继续 资助 取消 资助 

全 总 网 星 大 将 系 
WE 2% 2 
i 3 | WW 
和 | 订 呈 和 下 天 有 全 莹 这 ，A0PIF 拉 和 pe 2 25% 

这 证 一 出 新 数据 ， 说 明了 自 以 加 
, i CG ht RE 2-% Ps 

源 强 作 凡 妈 了 活动 小 来 ， 后 卫 工 大 -一 一 一 
3 ds 2 A 术 晶 有 的 二 要 夸 “ Ss ?5 

对 数 屯 旨 市 的 圾 乱 壕 城 的 印 家 . 

性 玉 重音 2 亲 页 则 胃 入 共 日 人 表 芭 ch WE " 


环卫 工人 问世 | $e 


ee rr 75 忒 
Ee 


二 类 党 欧 守 并 同 工作 以 米 ， 祖 妆 片 保 的 罕 可 如 县 党 小 了 1 93; 


我 们 用 波 合 过 小 点 守 和 二 年 肌 
数字 进行 比 轿 ， 因 为 并 们 列 升 局 
软 妨 这 个 数据 ， 上 日 哆 是 写 报 寺 。 


EEC ， 末 寺 守 过 拉 区 下 注 广 ES 3 从 
和光 


入 天 避 二 的 入 杏 家 要 其 市 汐 大 悦 二 1 


率 中 议 喜 窒 代 表 回 窜 
“ 划 ” 腑 人 人 明 百 仿 艇 ， 


动 动笔 
回答 下 列 问题 ， 这 有 是 市 议会 针对 你 对 通过 集 的 分 析 提 出 的 问题 。 
为 什么 你 不 能 直接 计量 垃圾 量 ? 


你 能 证 明 届 遇 集 的 活动 有 效果 吗 ? 


你 能 保证 你 的 策略 持续 有 效 吗 ? 


CE 


CE 


Cn 


动 动笔 解答 
你 是 如 何 答复 市 议会 的 ? 
为 什么 你 不 能 直接 计量 垃圾 量 ? 


你 能 证 明 还 遇 集 的 活动 有 效 末 吗 ? 


嗯 .看 来 你 的 确 知道 
自己 在 说 学 什么 ， s 
S 


你 能 保证 你 的 策略 持续 有 效 吗 ? 


你 们 这 帮 家 伙 和 其 他 人 一 样 没 用 。 


过 你 们 要 改选 了 


看 来 你 的 分 析 打 动 了 市 议会 的 议员 们 
备忘录 


回复 : 扯 遇 集 及 数据 邦 的 乱 扔 垃圾 问题 


市 议会 很 高 兴 与 遗 过 集 续 签 合 同 ， 这 得 归功 于 Head First 数 据 分 析 师 
的 出 色 分 析 。 我 们 认识 到 ， 先 前 对 站 唤 集 的 工作 评估 中 ， 没 有 充分 
全 面 地 考 虚 数据 邦 的 乱 扔 垃圾 问题 ， 低 佑 了 公众 观念 和 行为 的 重要 
性 。 你 们 重新 拿 出 的 新 决策 过 程 设计 得 非常 出 色 ， 希 望 站 过 集 继续 
坚持 对 目 己 高 标准 严 要 求 ， 今年， 数据 邦 市 议会 将 增加 对 途 壳 集 的 
资助 ， 我 们 和 希望 这 有 助 于 .………. 


太 咸 谢 您 网 放 趴 了 1 现在 我 条 可 心 做 太 乏 
油 事 呼吁 虎 据 帮 广 入 们 停止 乱 掀 泣 棱 。 信 
是 瀑 通 焦 殉 大 攻 星 1 


由 于 你 的 分 析 ， 数 据 邦 会 一 直 保 持 干 净 。 


谢谢 你 的 努力 工作 ， 谢 谢 你 能 洞察 分 析 这 些 问 题 ， 为 目 己 能 帮助 数据 邦 
保持 干净 整 涪 感 到 目 聚 吧 ! 


9 直方 图 
数字 的 形状 


十 里 的 淡 部 夺 训 罗 都 
尾 生 埋 这 上 凡 ， 所 以 芒 
二 这 如 高 ， 


那 入 怎样 1 重要 更 工作 
更 议 岂 进行 。 要 是 你 粒 手 能 
党 风景 ， 咒 例 明 富 治 什么 | 


直方 图 能 说 明 什 么 ? 

数据 的 图 形 表示 方法 不 计 其 数 ， 直 方 图 是 其 中 出 类 拔 茜 的 一 种 。 直 方 图 
与 柱状 图 有 些 相似 ， 能 迅速 而 有 效 地 汇总 数据 。 接 下 来 你 将 用 这 种 小 巧 
而 实用 的 图 形 量度 数据 的 分 布 、 差 异 、 集 中 趋势 等 。 无 论 数据 集 多 么 庞 
大 ， 只 要 画 一 张 直方 图 ， 就 能 “看 出 ”数据 中 的 奥妙 。 让 我 们 在 本 章 中 用 
一 个 新 颖 、 免 费 、 无 所 不 能 的 软件 工具 绘制 直方 图 。 


员工 年 度 考 评 即 将 到 来 
最 近 你 一 直 在 进行 一 些 出 色 的 分 析 项 目 ， 年 度 考评 来 得 正 是 时 候 。 
头头 们 想 了 解 你 对 自己 的 看 法 。 


响 ， 寻 岂 们 ， 这 役 一 
侍 自 我 评估 来， 


ss 


星 巴 仕 分 析 师 自 评 表 


中 谢 矿 二 写 本 公司 自 评 表 ! 这 份 文 外 对 本 公司 非常 平 概 ， 将 有 汶 于 决定 所 
您 在 品 纪 仕 前 荀 洽 。 


日 期 Sr Se 
侈 本 师妹 多 ws 本 


请 出 酌 自 己 的 能 力 发 展 水 平 ， 围 出 代表 该 水 平 的 相应 数字 ， 福 分 佐 说 明 
您 认为 自己 需要 帮助 得 分 高 说 明 您 认为 自己 工作 出 色 。 


分 析 工 作 的 性 体质 虹 。 


| 2 了 9 5 


锌 夫 过 入 学 件 的 意 关 和 生 爱 性 的 能 力 。 
、 2 3 4 ? 
各 了 歌 打赌 ， 你 现在 的 查 


分 表 定 比 在 党 第 1 章 讽 时 
个 南 多 了 了 。 


理 荤 地 和 判断 本 志 的 能力 ， 


| 2 3 4 5 : 
\ 
区 上 澡 和 口头 交际 苇 力 ， “和 a 


2 3 = 


保持 客站 信息 牺 授 此 作出 适当 迁 泽 的 能 旋 ， 
| 2 3 四 5 


你 的 工作 无 可 挑 昌 。 
你 值得 嘉奖 。 


不 是 口头 上 而 是 再 来 点 别 的 ， 真 正 的 嘉奖 。 哪 种 呢 ? 该 怎么 实 实 
生生 万 嘉奖 。 哪 种 呢 ? 该 怎么 实 实 


动 动笔 


最 好 动 动脑 筋 想 想 办 法 ， 争取 得 到 嘉奖 。 写 一 写 该 怎么 回答 这 些 问 
皇 册 。 


该 对 老板 感激 涪 堆 ， 然 后 等 着 好 事 上 1]? 只 要 老板 认为 你 有 价 
就 会 奖励 你 ”对 中 有 板 认 为 你 有 价值 ， 


该 给 自己 绝对 正面 的 评定 ， 也 许 还 要 吹 嗪 吹 嗪 自己 的 才干 ? 然后 要 
求 大 幅 加 薪 ? 


你 能 否 设想 一 个 数字 化 的 方法 来 应 付 这 种 情况 ? 


我 们 太 该 加 薪 了 。 人 得 
怎么 才能 让 老 极 动手 
给 我 们 加 呢 ? 


不 管 你 怎么 回答 上 一 页 的 问题 ， 我 们 都 认为 你 该 要 求 加 薪 。 和 毕竟 ， 工 作 
这 么 卖力 不 是 为 了 锻炼 身体 。 


伸手 要 钱 形式 多 样 


人 们 在 试图 要 求 老板 加 薪 时 会 变 得 浮躁 ， 这 也 难怪 啊 ! 结果 各 种 各 样 ， 
但 并 不 都 是 好 结果 。 


1 
自前 你 对 走 杆 屿 同 2 


仿 误 秘法 一 无 所 拓 . 一 


进行 研究 有 助 于 预测 结果 吗 ? 
即使 你 觉得 目 己 的 情况 与 众 不 同 ， 了 解 老板 的 基准 期 望 可 能 仍然 不 失 其 


这 是 历年 加 薪 记 隶 


由 于 你 洪 心 研究 星 巴 仕 数据， 因此 得 以 一 条 内 幕 : 人 力 资源 部 过 去 三 年 
加 薪 记 录 。 


证 _ 快 洲 下 载 / 
淋 
www headfirstiabs.combooks/hfda’ 
hfos ch0g9 employees.csv 


公司 加 亲情 况 ， 


数据 产 中 蚁 条 一 行 
代 素 茶 个 人 杰 竟 定 
主 价 中 航 吉 薪 情 况 ， 


这 一 列 药 出 职员 性 缠 :……” 
你 大 道 ， 收 别 和 加 盖 畅 启 
之 同 雪 垦 省 闲 种 藉 丈 。 


这 是 这 个人 蝎 
加 薪 糖 度 ， 履 
训 三 数 计 。 


这 一 列 莉 出 这 个 人 是 本 抽出 
注 各 茵 要 页， 惑 者 说 进行 
过 基 六 谈判 。 了 RRX2 各 所 蜀 
过，3A2SE 琳 示 泛 提 这 。 


这 些 数 据 可 能 有 总 
于 你 挤 清 英 对 加 蘑 
幅度 蚁 合理 期 将， 


你 可 能 能 够 从 这 些 数 据 中 刺探 到 一 些 非常 可 靠 的 信息 。 假 设 老板 的 做 法 
与 前 儿 任 老板 的 做 法 相似 ， 这 些 数据 束 能 让 你 知道 该 对 加 薪 有 何 期 盼 。 


问题 是 ， 员 工人 数 将 近 3000， 这 可 是 一 
组 相当 庞大 的 数据 。 


你 得 显 黑 身手， 发 挥 数据 的 作用 


动 动脑 


J 能 想 出 办 法 充分 发 挥 这 些 数据 的 作用 
吗 ? 


吉姆 : 我 们 应 该 把 这 些 数字 忘掉 ， 尽 量 多 争取 。 数 字 不 会 计 我 们 知 
道别 人 认为 我 们 配 得 多 少 工资 。 老 板 心里 有 一 个 数字 范围 ， 我 们 要 
想 办 法 争取 上 限 值 。 

乔 : 我 同意 大 部 分 数字 都 对 我 们 没 用 ， 不 会 让 我 们 知道 别人 认为 我 
们 配 得 多 少 工资 。 我 也 不 知道 该 怎么 摸 清 这 一 点 。 数 字 会 让 我 们 知 
道 平均 值 ， 要 求 平均 水 平 准 没 错 。 

吉姆 : 平均 水 平 ? 你 准 是 在 开玩笑 ， 干 嘛 想 着 中 等 ? 目标 定 高 点 ! 
弗兰克 : 我 想 应 该 更 细致 地 分 析 分 析 ， 我 们 的 信息 很 充分 ， 谁 知道 
这 些 数据 会 告诉 我 们 什么 呢 ? 

乔 : 我 们 必须 保险 点 ， 要 随 大 流 。 中 等 水 平 很 保险 ， 只 要 求 出 加 薪 
列 的 平均 值 ， 然 后 要 求 加 这 么 多 就 行 了 。 

吉姆 : 真是 缩 头 马 包 |! 


弗 兰 殉 : 看 ， 数 据 表 明 职 员 是 否 提 出 过 加 薪 、 加 薪 年 份 、 职 员 性 
别 。 这 些 数据 对 我 们 很 有 用 ， 我 们 只 要 把 数据 调整 成 合适 的 格式 束 
站 


吉姆 : 好 吧 ， 高 手 ， 说 来 听 听 。 


4m 


最 好 汇总 一 下 数据 。 数 据 太 多 则 很 难 一 口气 看 完 、 看 懂 ， 除 非 先进 行 汇 
总 ， 否 则 无 法 彻底 领情 数据 的 意义 。 


先 从 将 数据 分 解 成 基本 数据 块 着 手 ， 有 了 这 些 数 据 块 ， 就 能 观察 平均 值 
或 其 他 你 认为 有 用 的 汇总 统计 值 。 


该 从 哪里 着 手 汇 总 这 些 数据 呢 ? 
动 动笔 
如 你 所 知 ， 许 多 分 析 工 作 都 包括 提取 信息 、 将 数据 分 解 成 易于 管理 
的 较 小 数据 块 这 样 的 过 程 。 


画 一 张 图 ， 说 明 如 何 将 这 些 数 据 分 解 成 更 小 的 数据 块 。 


在 这 疙 珊 一 强 图 ， 说 昭 

心 何 将 这 此 数据 少 艇 成 、 
PA 0 i sh SK 
A 更 收 的 数 指 扎 ， VY 


HH 
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~» 
F 
NM 
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可 以 用 哪 种 统计 值 来 汇总 这 些 因 素 ? 设计 几 张 表格 ， 将 数据 和 汇总 
统计 值 整合 在 一 起 。 


动 动笔 解答 
你 会 把 数据 分 成 哪 几 种 数据 块 ? 


这 里 有 一 些 仙 可 多 
你 自己 购 答 案 可 通 
与 此 酷 有 区 黄 . 


你 可 忆 将 各 列 娄 据 分 
授 或 这 这 此 招 决 … 


EE A 5 
- 


有 锣 品 丰 本 My 普 


… 还 可 以 把 这 电 数 据 决 与 公 其 他 
列 今 短 出 来 的 数 据 闫 组 合 直 -起 。 
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缀 斐 疼 六 其 了 急 计 有 职 妆 
涡 度 咯 已 理 次 数 ， 
这 中 不 由 神 洗 寺 ， 也 过 志 尺 计 关 将 孝 攻 体 欧 地 掉 殷 杰 ， 
块 术 江 总 还 计 第 毕 合 亡 一 上 上: 


这 个 表 站 显示 了 男儿 和 RS 
所 性 蝎 妊 均 加 新 契 把 ， z 汪 ， 


人 入 各 仙 把 妥 这 汪 
将 闪 画 出 来 -…-…- 


想象 汇总 这 坚 数 据 块 明 
站 沐 常 有 趣 ， 示 过 想象 
就 是 把 寡 ， 动 手 做 起 来 
会 怎么 样 呢 # 


按照 想象 中 的 数据 组 的 样子 ， 准 备 动手 ， 开 始 汇总 。 
在 需要 分 割 、 汇 总 复杂 的 数据 集 时 ， 你 会 想 用 最 优秀 的 软件 工具 完成 繁 
1 既然 如 此 ， 让 我 们 动手 用 软件 来 揭示 这 些 加 薪 数 据 的 真相 
Im 。 
一 试 身手 

0 00 这 样 惑 能 一 目 了 然 地 观察 整个 
所 以 过 我 们 创建 一 个 开局 或 者 ， 更 好 的 做 法 是 ， 让 我 们 用 图 形 方 
式 创建 一 个 汇总 。 
国 打开 Data Analysis (数据 分 析 ) 对 话 框 。 


在 Srxcn 中 打开 数据 ， 革 主 
Puta 【所 广 ) 福 答 下 由 ats 
Ynalyois ( 扫 据 分 有 按 程 。 


旭 本 着 系 到 Dasa Anaiyniy 
《数据 太白 1 技 竹 ， 庄 
条 潮 内 好 马 迁 行 安 紧 . 


在 OpenOffice 和 较 旧 的 Excel 版 本 中 ， 可 以 在 Tools (工具 ) 菜单 下 查 
看 Data Analysis (数据 分 析 ) 按钮 。 
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选择 直方 图 。 


在 冬 出 式 窗 口中 ， 告 诉 2xzcet 
你 想 创 建 一 个 直方 图 ， 


选择 数据 。 


将 weceiuod (实际 加 莫 ) 到 
下 拘 数 据 全 部 进 由 


让 频 选 取 这 个 好 项 种 ， 这 


样 sxcel 才 会 接 作 图 莫 ， 
WN WR 
Pert vs _ Ta nd 选 振 冯 加 蕉 数据 后 全 上册 
2 Fr 风 
> 一 塘 一 个 大 大 晶 冶 妈 灯 系 3] 230 3d sAlsE F 
下 位 库 庶 找 报 ， 从 上 ……… EE HE 
| I TRUE IM 3 2s32 5 FALSE F 
| s: 式 TREE WM 2229; 4 和 ALE M 
| TE TRUE IM 2 94; 4 FALE 下 
9 | 有 TRUE 下 六 网 25 3 A M 
0 3 TREE IM | 2997 25936; SN FALSE F 
了 16, be TI OF 到 下 2 PE Fal M 
| es 党 2 9; 4M FALSE F 
| | EN 有 了 间 
3000 33 FALSE 于 


运行。 
按 下 OK ( 确 完 ) ， 
分 割 数据 . 

创建 图 形 后 结果 如 何 ? 

直方 图 体现 每 组 数据 的 发 生 频 数 


直方 图 是 一 种 功能 强大 的 图 形 ， 无 论 数 据 集 多 庞大 ， 直 方 图 都 能 显示 出 
数据 点 在 数值 范围 内 的 分 布 情况 。 


例如 ， 你 在 上 一 个 练习 中 想象 过 的 图 形 会 告诉 你 有 多 少 人 得 到 了 5% 的 加 
新 。 


-一 一 这 昌 Sxcz( 的 检 出 尾市 ， 


5 
并 不 方 图 
"|| Ww \ 似 竺 很 闽 人 是 加 菇 禄 
号 八大 都 在 这 人 “东风 贞 。 
| be 
2 
: | 
| 
J CP | 和 | :| | 中 A wh 
"1 Bd : SST 
:4% 各 六 频 喜 1 
“二 | 全 真 方 图 站 谨 科 一 
sé : 提供 产 至 全 息 。 绒 ， 号 ri 站 轴 痢 所 
二 “未 购 确 近 杂乱 。 


个 直方 图 用 图 形 方 式 显 示 出 获得 每 种 加 薪 幅 度 的 有 多 少 人 ， 还 人 要 显 
示 出 吉 划 1 分 布 情况 。 


直方 图 


这 此 区 疗 是 整 


另 一 方面 ，Excel 的 输出 结果 存在 一 些 问 题 : 区 间 (或 组 距 ) 采用 默认 设 
置 ， 结 采 X 轴 的 数值 杂乱 不 齐 。X 轴 上 代表 各 个 区 间 的 数字 应 为 整数 ， 相 
比 使 用 小 数 ， 这 样 的 图 更 易于 观察 。 


= 


不 过 ， 即 使 这 个 图 也 有 一 个 严重 的 问题 ， 你 能 指出 来 吗 ? 

直方 图 不 同 区 间 之 间 的 缺口 即 数据 所 之 间 的 缺口 
直方 图 上 的 缺口 意味 着 区 间 与 区 间 之 间 没 有 数据 。 比 如 ， 如 果 没有 任何 
人 的 加 虽 幅 度 是 5.75% 到 6.25%， 则 图 上 会 出 现 缺 口 。 如 果 直 方 图 上 看 得 
到 缺口 ， 可 能 真 的 值得 好 好 调查 。 


实际 上 ， 如 果 区 间 比 数据 点 多 ， 直 方 图 上 免不了 出 现 缺口 (除非 数据 集 
是 反复 出 现 的 相同 数字 ) 。 


直方 图 细节 


这 个 击 口 是 否 束 示 没 用 位 何人 的 加 
蘑 幅 度 处 于 3.396 和 3,.836 之 网 ? 


这 正 是 这 个 缺口 应 该 表示 的 确切 含义 ， 起 码 在 直方 图 绘制 正确 的 时 

候 是 这 样 的 。 如 有 果 你 认为 这 张 直 方 岁 是 正确 的 ， 并 且 数 值 之 间 有 缺 

ee 。 你 需要 用 一 个 软件 工具 创建 一 张 更 好 的 直 
O 


Excel 函 数 的 问题 是 生成 了 一 些 杂 乱 虚 假 的 区 间 ， 十 分 具有 欺骗 性 ， 通 过 
一 种 技术 手段 可 以 解决 这 些 问题 (对 于 Excel， 只 要 有 时 间 用 Microsoft 专 
有 编程 语言 编写 代码 ， 几 乎 总 是 能 找到 解决 问题 的 办 法 ) 。 


不 过 ， 这 已 经 是 第 9 草 ， 你 已 经 解决 了 许多 大 问题 ， 已 经 做 好 准备 使 用 比 
Excel 更 强大 的 软件 工具 处 理 统计 问题 。 


你 所 需要 的 是 名 为 R 的 软件 ， 这 十 一 款 免 费 的 开放 源 程序 ， 可 能 会 成 为 统 
计 学 计算 方法 的 未 来 ， 你 就 要 开始 钙 研 这 蒜 软 件 了 ! 


安装 并 运行 R 


请 访问 www.r-project.org ， 下 载 R 程 序 。 在 身边 找 一 个 镜像 获得 适用 于 
Windows、Mac 和 Linux 的 R 程 序 ， 这 并 不 困难 。 


革 去 此 下载 尾 接 。 


襄 请 相 和 站 所 ， 持 看 到 
这 样 一 个 当 口 ， 


这 个 小 路 部 光 直 仪表 指 村 提示 ， 
可 以 在 斌 里 葡 入 元 程 四 指 态 . 


放 轻 松 
指令 提示 是 你 的 朋友 
尽管 使 用 指令 提示 最 初 会 让 人 多 费 点 儿 脑 筋 ， 它 却 能 让 你 更 快 掌握 


要 领 。 通过 输入 “Edit (你 的 数据 ) "指令 ， 总 是 能 成 功 地 把 数据 转变 
成 电子 表格 风格 的 图 形 。 


将 数据 加 载 到 R 程 序 


你 要 用 的 第 一 条 R 指 令 是 : 使 用 source 指 令 党 试 加 载 《 深 入 浅 出 数据 分 
析 》 (Head First Data Analysis ) 脚本 。 


半 _ 快 洲 下 载 / 
米 


source (ht=p /waw.headfirstlabs.com/books/hfda/hfda.R”") 


该 指令 会 将 R 所 需要 的 加 薪 数 据 加 载 到 程序 中 ， 加 载 过 程 需要 连接 互联 
网 。 如 果 想 保存 R 会 话 ， 以 便 在 断 开 互联 网 的 时 候 重 新 访问 Head First 数 
据 ， 可 以 输入 “save.image()”。 


下 载 好 了 吗 ? 首先 看 看 下 载 内 容 中 的 Employees (雇员 ) 数据 框架 ， 输 入 
下 面 这 个 指令 并 按 下 Enter 〈 回 车 ) : 


employees 


输入 数据 杠 如 轰 名 称 ， 
灵 本 示 这 个 数据 报 痢 . 
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指针 这 回 一 个 列 示 ， 
其 中 包括 数据 框架 
中 脑 所 有 行 。 


上 边 的 输出 结果 就 是 R 对 指令 的 啊 应 。 
练习 


在 R 中 输入 下 面 这 条 指令 ， 生 成 直方 图 : 


是 什么 意思 
"iat enpleyaessreneiveds, breaks-h)) pd 
FS_ 2 
Sa 2 
你 觉得 指令 行 中 的 各 个 因子 是 什么 意思 ? 解释 你 的 回答 。 
-从 习 解 答 
你 觉得 这 个 直方 图 指令 是 什么 意思 ? 
hist 告 诉 内 运行 直方 图 总数 ， 
( 第 二 个 自 变量 告诉 台 加 何人 邵 租 ， 
/ 
“Ss ist "emvloyveesrreceive br-eaks—02)} 
修 个 
x \ / 
第 一 个 自 灾 量 指定 要 几 放 这 
网 数据 ， 
R 创 建 了 美观 的 直方 图 
还 能 体现 各 个 


直方 图 的 柱 体 不 仅 能 够 量度 被 计量 事物 的 数目 (频数 ) ， 
区 间 所 代表 的 整个 数据 集 的 百分比 。 


employeesSreceived 的 直方 图 
\ 
_ Wp 
| \ 
\ 
人 
“ 
全 
衣 入 控 点 区 内 er 总 才 \ ! 
过 行 档 信 后， 群 出 一 修 i 一 \ \ 
窗 字 显 寺 这 个 胃 - pe |= \ \ 
A | 。 i 1 
\ 2 ~、 
2 i | 
a 
f - ) 
计 二, 兰 8 fj 
北 针 摇 失 Ei 
Rc 就 里 生 公 六 
部 为 信教 . 
5 hi 
T T 
0 在 和 13 加 
人 
| OpOveesSrecosveO 
/ \ 
省 亲人 此 如 薪 / 
翌 疡 的 555。 一 这 生 最 村 加 薪 怪 记 . 一 


仔细 观察 曲线 轮廓 ， 很 多 事情 显而易见 : 加 薪 幅 度 低 于 0 的 人 不 多 ， 加 薪 
幅度 高 于 22% 的 人 也 不 多 。 


但 图 形 中 央 情况 如 何 呢 ? 
这 幅 图 让 你 得 出 什么 结论 ? 
练习 


下 面 这 些 指令 会 让 你 对 手头 的 数据 集 了 解 更 深 ， 还 能 得 知人 们 的 加 
薪 分 布 。 请 运行 指令 ， 看 情况 如 何 。 


9 hyev spr vr. ely J 
SGICTELONVCCST7ISC-vid) © Rs , 
> 体 认 坝 刺 为 全 各 会 有 


这 样 的 响 总 ? 


德 入 help {sd) 和 help tsummarzy) \ 
希 看 这 闻 指 夺 做 了 寺 色 


mi 


这 两 条 指令 有 何 作用 ? 


仔细 观察 直方 图 。 从 图 上 观察 到 的 结果 与 R 通 过 


这 两 个 指令 得 出 的 结 
果 相 比如 何 ? 
练习 解答 
些 指 令 演示 加 薪 数 据 集 的 汇总 统计 值 。 你 认为 这 些 
令 有 何 作用 ? 


这 两 条 指令 有 何 作用 ? 


summary() 指 令 显 示 received 


以 平声 情况 上 曾 ， 加 薪 度 
与 平 雹 值 网 偏差 为 2.43%， 


> sd(employees$Sreceived) ， 
[1] 2.432138 


> summary(CemployeesSreceived) 


Min, 1st Qu. Median Mean 3rd Qu. 


-1.800 4.600 5.500 6.028 6.700 25.900 
> 


Max . 


summazy1{) 计算 出 人 员 加 新 
幅度 揭 一 此 基本 汇总 统计 值 ， 


仔细 观察 直方 图 。 从 图 上 观察 到 的 结果 与 R 通 过 这 两 个 指令 得 出 的 结 
果 相 比 有 何 差别 ? 


employeesSreceived 的 直方 


这 是 中 间 值 ，> 
s ] 这 是 平 场 什 ， 


右 侧 的 数值 略 

大 于 去 侧 ， 这 
使 平 场 从 向 省 
| 移 了 一 点 此 ， 
hh 


这 是 一 个 这 是 岗 个 “ 峰 ”， 二 个 极 高 ， 
标 竣 偏 基 . 一 个 是 位 于 右 侧 的 小 姥 个 . 


乔 : 如 果 直 方 图 是 对 称 的 ， 则 平均 值 和 中 间 值 会 处 于 相同 的 位 置 
一 一 正中 间 。 


弗兰克 : 对 。 但 在 这 个 实例 中 ， 右 侧 的 小 峰 将 平均 值 拖 离 大 峰 的 中 
心 ， 而 大 部 分 观察 对 象 都 位 于 这 里 。 


乔 : 我 在 苦 苦 思考 这 两 个 峰 ， 它 们 意味 着 什么 呢 ? 


弗兰克 : 也 许 我 们 该 重新 看 看 允 前 划分 的 数据 块 ， 弄 清楚 这 些 数 据 
块 是 否 和 直方 图 有 些 关 系 。 


乔 : 好 主意 。 
二 -要 事 加 划 
三 一 2 加 莫 揭 女 性 
2 Re ， 2 
二 本 本 “07 年 加 
- 量 是 -- 男 ， 薪 1% 


和 才 日 ee 
先前 想 密 的 数据 组 ， 


你 能 否 想 出 办 法 用 先前 划分 的 数据 组 来 解释 直方 图 上 的 两 个 峰 ? 


EE 


动 动笔 解答 
先前 划分 的 数据 组 对 直方 图 上 的 两 个 峰 有 何 影 啊 ? 


世上 没有 俄 问 题 


问 : 这 么 说 ， 我 们 似乎 能 灵活 处 理 直 方 图 外 形 。 


管 : 确实 如 此 。 应 该 把 创建 直方 图 这 一 步骤 本 身 视 为 一 种 解释 ， 而 不 是 
先 于 解释 的 任何 步骤 。 


间 : ”R 用 于 创建 直方 图 的 默认 值 一 般 都 合适 吗 ? 

答 :， 一 般 是 的 。R 努力 寻找 能 够 最 好 地 体现 数据 特点 的 分 区 数目 和 坐 
标 ， 但 R 并 不 理解 所 绘制 的 数据 的 含义 。 正 如 使 用 汇总 画 数 一 样 ， 快 
A ee 
之 前 ， 合适 的 方法 使 用 直方 图 (并 重新 绘制 直方 图 ) ， 以 免 忘 
ee 站 析 目 标 。 

间 : ”任意 一 个 峰 都 是 “ 铃 形 曲 线 ” 吗 ? 

答 : 很 好 的 问题 。 通 常 ， 当 我 们 想到 铃 形 曲线 时 ， 指 的 都 是 正 态 分 布 或 
de 分 布 ， 但 还 存在 一 些 其 他 类 型 的 铃 形 分 布 ， 以 及 许多 非 铃 形 的 分 布 
间 : 那么 正 态 分 布 有 何 重大 意义 ? 

管 : 只 要 数据 呈正 态 分 布 ， 大 量 高 效 而 简单 的 统计 方法 就 能 派 上 用 场 ; 
大 量 的 自然 数据 和 商业 数据 都 呈现 自然 分 布 的 形状 (或 可 以 以 某 种 方式 
进行 “转化 ”为 自然 分 布 的 形状 ) 。 

间 : ”我 们 的 数据 是 正 态 分 布 吗 ? 


答 :， 你 所 评估 的 直方 图 肯定 不 是 正 态 分 布 。 只 要 峰 的 数目 超过 一 个 ， 就 
不 能 称 为 铃 形 。 


问 :但 数据 中 肯定 有 两 个 貌似 铃 形 的 峰 ! 


管 : 这 种 形状 必定 有 某 种 意义 。 问 题 是 ， 为 什么 数据 分 布 呈现 这 种 形 
状 ? 你 该 怎么 搞 清 楚 呢 ? 


间 : 你 能 不 能 多 画 几 张 直方 图 描绘 数据 块 的 小 组 成 块 ， 然 后 分 别 进行 评 
估 ? 这 样 也 许 能 弄 清楚 为 什么 会 出 现 两 个 峰 。 


答 : 直觉 正确 。 试 试看 ! 
你 能 不 能 分 拆 加 薪 数 据 ， 使 两 个 峰 分 开 ， 并 解释 存在 这 两 个 峰 的 原因 ? 
用 数据 的 子 集 绘制 直方 图 


你 可 以 用 整个 数据 集 绘制 一 张 直方 图 ， 但 也 可 以 把 整个 数据 集 拆 分 成 几 
个 子 集 ， 然 后 绘制 其 他 一 些 直 方 图 。 


加 薪 数 据 一 一 


p gy 大 ~、 /二 | > 
| Fa 训 加 砷 ”所 四 I 太 ， 
二 FE 中 1 有 和 A 
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川 箱 
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一 二 _ 7 2008 | 
-i 7 人 
-ra “ /~ A 下 这 诗 扯 
攻 江 买 系 来 蕊 AN 人 全 | To 世 忌 j NT 前 i 
a a 各 渤 是 六 女性 风 者 薪 尝 线 对 比 
: be . i 。 A 
" 求 邵 车 二 可 > 寂 都 兹 速 弘 - 雍 久 息 ， 


练习 


让 我 们 创建 一 批 直方 图 描绘 加 薪 数 据 的 子 集 。 也 许 观 察 这 些 不 同 于 
原来 的 直方 图 会 帮助 你 搞 清 楚 原 直方 图 上 的 两 个 峰 意 味 着 什么 。 是 
否 有 一 个 群体 的 加 薪 幅 度 高 过 其 他 群体 ? 


1) ”首先 ， 看 看 下 面 这 个 直方 图 指令 ， 看 清 语法 。 你 认为 这 个 指令 
中 的 各 个 因素 有 何 意 义 ? 


hist(employees$received[employees$year == 2007], breaks = 50) 


根据 自己 吹 音 解 在 这 届 
避 下 和 急 个 因素 沟 意 义 ， 


2) ”模仿 上 面 的 指令 ， 逐 一 执行 下 列 指令 。 看 到 什么 了 ? 结果 见 下 
页 ， 请 进行 解释 并 写 下 你 的 解释 。 


hist(employees$received[employees$year == 2008], breaks = 50) 


hist(employees$received[employees$gender == “F”], breaks = 50) 
hist(employees$received[employees$gender == “M”], breaks = 50) 


hist(employees$received[employees$negotiated == FALSE], breaks 
= 50) 


hist(employees$received[employees$negotiated == TRUE], breaks 
= 50) 


强化 妈 \ 习 
这 些 直方 图 代表 不 同 职员 群体 的 加 薪 情 况 ， 你 能 从 中 看 出 什么 ? 


是 从 


hist1i)y 下 本 给 -一 “De vec | 沉 际 加 笠 ) 天 


村 - 检 站 市 财 搜 在 直 广 渔 中 绘制 咯 闪 往昔 一 breaks {分区 } 在 
-J 区) Co i ee [六 
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' 


4 LY 蚂 工 路 
t9SReirTcenvnEeTHOTEe3S ITE OA 


hist(employees$received[employees$year == 2008]， breaks = 50) 


站 


| 上 LE 


0 9 10 Li 可 


comesiecenegenBSVee1S mrs a0] 


hist(employees$received[employees$gender == "F"], breaks = 
50) 


i 


Lu HA | 


' 


hist(employees$received[employees$gender == "M"], breaks = 50) 


让 


EE 


Mistogram of employeesSrecelvodiemployees Sgeondar == ~M"] 


hist(employees$received[employees$negotiated == FALSE], breaks 
= 50) 


让 


mr 


hist(employees$received[employees$negotiated == TRUE]， breaks 
= 50) 


让 
[人 
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EE 
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加 薪 谈 判 有 回报 
nn 
靠 提 要 求 。 


是 否 选择 提出 加 薪 〈 即 进行 加 薪 谈 判 ) 决定 了 人 们 的 加 薪 结果 分 布 情况 
只 要 提出 加 薪 有 要求， 整个 直方 岁 就 癌 右 移 。 


针 提 加 薪 要 未 ， 


提 加 薪 要 求 
未 提要 刷 交 人 人 实 Casa 
际 加 薪 会 数 少 ， 


要 是 你 对 去 求 加 新 于 集 做 个 汇 忆 完 计 ， 束 会 发 现 ， 整 像 在 两 条 曲线 上 观 
察 到 的 一 样 ， 结 果 十 分 富有 戏剧 性 


章 拨 证 和 中 间 债 变 元 竺 
计 是 守 前 好 准 偏 大 庙 荡 数 ， 如 有 情况 下 几乎 一 至 ， 


0 osmegotiated == TRUE]) 
Max . 


14.90 
> sdCemployees$raise. amount [employeesSnegotiated == TRUE]) 
[1] 8.9805234 
> Summary(CemployeesSraise_amount[employeesS$negotiated 一 FALSE]) 
Min. 1st Qu. Median Mean 3rd Qu . 
0.400 4.300 5.000 5.806 5.760 8.800 
3 > sd(employeesSroise_amount[employeesSnegotiated 一 FALSE]) 
[1] 1.001189 


| > 
\ 
平均 站 来 ， 西 种 分 布 情 现 下 座 艇 问 
点 都 在 平 坟 公 毅 1 双 范 图 以 向 。 


毫 无 疑问 ， 你 应 该 谈判 要 求 加 薪 。 
谈判 有 要求 加 薪 对 你 意味 着 什么 ? 


已 经 分 析 了 加 薪 数 据 ， 哪 种 策略 会 市 来 最 好 的 结果 束 已 经 水 落石 


雪 弓 系 别 执 朱 加 薪 可 能 


你 被 封存 。 


拒 攻 村 数 碾 齐 今 ， 真 泪 民 


宅 人 条 弘 出 去 来 。、 怎 么 才 佣 


洞悉 一 切 ， 未 卜 先 知 。 


回归 分 析 法 力 无 边 ， 只 要 使 用 得 法 ， 束 能 帮助 你 预测 某 些 结果 值 。 阁 与 
控制 实验 同时 使 用 ， 回 归 分 析 还 能 预测 未 来 。 商 家 狂热 地 运用 回归 分 析 
帮助 目 己 建 立 模型 ， 预 测 客户 行为 。 本 章 即 将 让 你 看 到 ， 明 智 地 使 用 回 
归 分 析 ， 确 实 能 够 市 来 巨大 效益 。 


你 打算 皇 么 伦 这 些 钱 ? 


你 的 加 薪 要 求 奏效 了 。 你 从 直方 图 上 看 出 ， 选 择 要 求 加 薪 的 人 点 无 例外 
地 得 到 了 更 高 的 收入 。 于 是 ， 当 走 进 老 板 的 办 公 室 时 ， 你 胸有成竹 地 执 
行 了 自己 的 策略 一 一 结果 奏效 了 ! 


下 边 是 你 在 前 一 章 的 练习 中 看 到 过 的 直方 图 ， 不 过 重新 画 了 一 遍 ， 以 便 
两 张 图 的 坐标 和 区 间 大 小 都 相同 。 


未 兽 要 求 加 峙 珊 的 加 峙 结果 
= 这 昌文 部 分 大 


要 加 大 范 蜡 ， 


兽 要 求 加 环 者 的 加 末 结 洒 


干 得 好 ! 
现在 还 没 到 收 手 的 时 候 。 


你 发 现 了 如 何 得 到 更 高 薪 的 秘密 ， 这 是 大 家 的 福音 。 同 事 中 几乎 没有 人 
nn 对 于 那些 没有 要 求 过 加 薪 的 人 ， 你 能 为 他 们 做 更 


你 应 该 做 专门 替 别 人 争取 加 薪 的 生意 ! 
动 动笔 
这 里 有 几 个 问题 ， 根 据 这 几 个 问题 ， 想 想 如 何 依托 数据 分 析 创建 一 
家 商号 ， 经 营 你 在 加 攻 谈 判 方面 的 经 验 。 


知 有 一 家 帮助 客 户 分 析 加 薪 谈 判 的 商号 ， 你 觉得 客户 会 期 望 这 家 商 
号 提供 哪些 业务 ? 


本 


如 采 你 在 经 营 这 一 行 生 意 ， 用 哪 种 办 法 回报 你 的 知识 可 谓 公 正 ? 


TEETER 


动 动笔 解答 


你 想 依 托 哪 种 数据 分 析 方 式 提供 薪资 咨 询 业务 


知 有 一 家 帮助 客 户 分 析 加 薪 谈 判 的 商号 ， 你 觉得 客户 会 期 望 这 家 商 
号 提供 哪些 业务 ? 


， 拯 太 上 想 、 
一 个 最 其 i 梧 题 ， 该 多 少 9 


如 采 你 在 经 营 这 一 行 生 意 ， 用 哪 种 办 法 回报 你 的 知识 可 谓 公 正 ? 


JR 从 关 - 忆 给 你 一 些 泪 以 二 尔 } 得 中 其 全 巴 = 


你 盟 如 攻 作 宦 


你 疝 客 访客 故 你 禄 此 找 清 直 
可 性 提 凡 别 知 加 蘑 菇 刺 ， 


S 
3 


涩 次 询 案 户 向 者 板 抽 出 名 暮 时 . 导 必 9 
六 检阅 -一 完 水平 师 如 某 估 的 同 交 。 小 
会 稚 求 -一 定 求 平 ~  - 


以 获取 大 幅度 加 薪 为 目的 进行 分 析 
要 求 加 多 少 钱 可 谓 合 理 ?如何 让 要 求实 为 现实 ? 大 部 分 人 对 此 都 一 无 所 
日 。 


并 护 加 六 ， 介 和 拓 
道 访 怎 么 所 由 款 . 


动 动脑 


你 需要 制定 服务 框架 ， 明 确 目 标 。 你 的 产品 会 是 什么 样子 ? 
稍 等 片刻 ..….... 加 薪 计 算 器 ! 

人 们 想 知道 该 怎么 提要 求 ， 还 想 知 道 提 了 以 后 能 到 手 多 少 。 
你 需要 一 种 算法 。 


Hi NE 
村 4 要件 三 


现在 你 已 经 万 事 俱 备 ， 可 以 创建 一 个 决策 流程 帮助 人 们 获取 满意 的 加 
新 。 


术语 角 
算法 ”为 了 完成 某 个 计算 而 执行 的 任何 过 程 。 在 本 例 中 ， 你 将 在 算 


法 中 加 入 计算 依据 一 一 要 求 加 薪 幅 度 ， 然 后 通过 一 些 步 又 预测 实际 
加 薪 幅 度 。 这 些 步骤 都 有 哪些 呢 ? 
这 个 算法 有 何 玄机 ? 


画 一 张 这 样 的 靓 图 真是 好 极 了 ， 不 过 ， 为 了 让 人 们 掏 钱 ， 同 时 ， 重 要 的 
是 为 了 让 自己 有 一 些 绝活 ， 你 接 下 来 必须 进行 严肃 的 分 析 。 


既然 如 此 ， 你 觉得 这 个 算法 有 何 玄机 ? 
这 个 算法 的 玄机 在 于 预测 加 薪 幅 度 


预测 是 数据 分 析 的 重头 戏 。 


有 些 人 会 认为 ， 总 的 说 来 ， 把 假设 检验 和 预测 加 起 来 就 等 于 数据 分 析 。 


马上 就 委 ! 


可 能 需要 预测 的 问题 ， 
m ”人 们 的 措施 

a 市场 动 态 

m ”重大 事件 


”实验 结果 
”数据 中 未 体现 的 资料 

不 能 不 问 的 问题 : 

里 ”我 有 足够 的 数据 进行 预测 吗 ? 

”我 的 预测 准确 性 如 何 ? 

”是 定性 预测 还 古 定 量 预测 ? 

”我 的 客户 能 顺利 利用 这 个 预测 吗 ? 
”我 的 预测 有 何 局 限 性 ? 


让 我 们 观察 部 分 数据 ， 看 看 要 求 加 薪 的 人 都 提 些 什么 。 你 能 针对 各 种 加 
薪 有 要求 预测 加 薪 结 果 吗 ? 
动 动笔 
下 面 的 直方 图 体现 了 曾 要 求 加 薪 者 的 实际 加 薪 幅 度 ， 以 及 他 们 曾经 
要 求 过 的 加 新 幅 度 。 


从 直方 图 中 能 看 出 怎么 做 才能 得 到 大 幅度 加 薪 吗 ? 说 一 说 如 何 对 两 
个 直方 图 进行 比较 才能 揭示 两 种 变量 之 间 的 关系 ， 以 便 有 可 能 预测 
提出 加 薪 有 要求 后 市 来 的 加 薪 结 采 。 


短 垩 求 加 车 才 的 加 村 站 好 | 前 下 求 加 而 老 的 加 而 亚 求 。 ,。 


动 动笔 解答 
中 能 看 出 该 上 怎么 提 加 新 要 求 才能 得 到 大 幅度 加 产 
吗 ? 


| 曾 到 求 加 萝 者 的 加 考 续 兴 
让 3 


世上 没有 傻 问题 


问 : 不 能 直接 把 两 张 直方 图 丫 加 在 一 个 坐标 中 吗 ? 


管 : 完全 可 以 。 但 为 了 进行 清晰 的 比较 ， 两 张 直方 图 都 要 体现 相同 的 内 
容 。 在 上 一 章 中 用 多 个 数据 子 集 绘制 了 大 量 直 方 图 ， 用 这 些 直方 
图 济 行 相配 比较 即 可 。 


问 : 可 实际 加 薪 幅 度 和 要 求 加 薪 幅 度 确实 非常 相似 ， 对 吗 ? 

管 : 当然 了 ， 在 计量 方法 上 很 相似 : 都 用 的 是 薪水 的 百分数 。 但 你 并 不 
征 特 别 想 知 道 每 种 变量 的 分 布 情况 ， 而 是 想 知 道 对 于 个 体 来 说 一 个 变量 
与 男 一 个 变量 的 关系 。 

问 : 明白 了 。 既 然 如 此 ， 如 果 得 到 了 这 些 信 息 ， 我 们 该 怎么 利用 呢 ? 

管 : 问 得 好 。 是 应 该 关注 最 终 分 析 结 果 ， 那 是 你 的 智 茵 产品 ， 可 以 卖 
J 产品 将 是 什么 样子 ? 但 首先 ， 你 需要 用 图 形 比 较 这 两 
人 广 羽 o 


散 扩 图 数据 挟 


还 记得 第 4 章 的 散 点 图 吗 ? 这 是 一 种 将 不 同 变量 放 在 一 起 进行 比较 的 好 办 
法 。 在 本 练习 中 ， 取 以 下 三 个 人 的 数据 ， 将 这 些 数据 放 在 散 点 图 中 。 


你 将 需要 用 其 他 数据 点 绘制 刻度 和 坐标 轴 。 


鲍 蝶 ) 炒 莉 炸 


鲍 勃 要 求 加 59%， 得 到 了 59% 。 
芳 妮 要 求 加 10%， 得 到 了 8%。 
朱 和 莉 娅 要 求 加 2%， 得 到 了 109%。 


散 扩 图 数据 挟 


及 这 里 的 3 一 ¥ 
虫 蔡 洽 币 邹 吉 、 

_ 这 此， 本 章 担 
的 些 抒 。 


你 刚刚 将 鲍 盈 、 芳 妮 、 朱 者 娅 的 情况 画 在 了 坐标 中 ， 形 成 了 散 扣 图。 看 
a 


鲍 勃 要 求 加 5%， 得 到 了 59% 。 
芳 妮 要 求 加 10%， 得 到 了 8%。 
朱 莉 娅 要 求 加 2%， 得 到 了 109%。 


世上 没有 傻 问 题 


问 : 我 什么 时 候 能 使 用 散 点 图 ? 


管 : 尽量 多 用 ， 这 是 一 种 从 多 方面 展现 数据 特点 的 快捷 办 法 。 只 要 你 的 
数据 涉及 两 种 变量 ， 就 该 考虑 使 用 散 点 图 。 


问 : 这 么 说 ， 任 何 两 种 变量 都 能 同时 放 在 散 点 图 中 ? 

管 : 只 要 这 两 种 变量 成 对 出 现 并 描述 了 数据 中 隐 含 的 人 或 事 就 可 同时 放 
在 散 点 图 中 。 在 本 例 中 ， 数 据 库 中 的 每 一 行 都 代表 一 名 员工 要 求 加 薪 的 
一 种 情况 ， 而 每 位 员工 的 情况 又 包括 实际 加 薪 和 要 求 加 薪 两 方面 。 

问 : 我 该 以 什么 为 目标 观察 这 些 图 呢 ? 


答 : 对 于 一 位 分 析 师 来 说 ， 散 点 图 的 根本 在 于 寻找 变量 之 间 的 因果 关 
系 。 例 如 ， 如 果 要 求 高 造成 加 薪 低 ， 束 会 在 散 点 图 中 看 出 这 两 种 变量 之 


间 的 关系 。 散 点 图 本 身 仅 显 示 出 关系 ， 要 说 清原 因 还 需要 做 更 多 事 (对 
于 初学 者 来 说 ， 还 需要 解释 为 什么 一 种 变量 会 决定 另 一 种 变量 ) 

问 : 要 是 我 想 比 较 三 组 数据 该 怎么 办 ? 

答 : 你 完全 可 以 在 R 中 创建 图 形 ， 对 两 个 或 两 个 以 上 变量 进行 比较 。 在 
本 章 中 ， 我 们 将 使 用 两 种 变量 ， 但 你 可 以 通过 三 维 散 点 图 和 多 面板 网 格 
图 绘制 三 种 变量 。 如 果 你 想 体验 一 下 多 维 散 点 图 ， 可 复制 并 运行 一 些 
cloud 函 数 的 实例 ， 参 见 heljp (doud) 的 帮助 文件 。 

问 : 那么 我 们 何 时 开始 观察 二 维 散 点 图 上 的 加 薪 数 据 ? 


答 : 马上 开始 。 这 里 有 一 些 预 先 编制 好 的 代码 ， 可 以 为 你 发 掘 一 些 更 
新 、 更 具体 的 数据 并 创建 一 张 称 手 的 散 点 图 。 来 吧 ! 


预 编程 代码 


在 R 中 运行 这 些 指 令 ， 生 成 一 张 散 点 图 ， 体 现 出 要 求 加 薪 和 实际 加 
薪 的 情况 。 


密 … 天下 让 哺 寻 外 
MW 


运行 这 些 指令 会 出 现 什么 结果 呢 ? 
用 散 扣 图 比较 两 种 变量 


这 张 散 点 图 上 的 每 一 个 点 代表 一 个 独立 的 观察 对 象 : 一 个 人 。 


和 直方 图 一 样 ， 散 点 图 是 另 一 种 用 于 展现 数据 的 快捷 、 经 典 的 办 法 ， 它 
显示 的 是 数据 分 布 情况 。 但 和 直方 图 不 同 的 是 ， 散 点 图 显示 两 种 变量 。 
一 个 组 成 部 分 。 


当然 可 以 ， 不 过 为 什么 呢 ? 别 生 了 ， 你 正在 设法 建立 一 种 算法 。 
画 一 条 贯穿 数据 的 直线 对 你 会 有 什么 用 呢 ? 


二 大 二 


乔 帮 雪人 


直线 能 为 客户 指明 目标 


一 条 贯穿 数据 的 直线 的 确 可 能 是 一 种 有 效 的 预测 办 法 ， 再 看 看 我 们 一 直 
在 考虑 的 算法 。 


流 是 重 佳 预测 牧 吗 ? 
\ 


这 个 中 间 计 算 部 分 可 能 正 是 一 条 直线 。 只 要 画 出 一 条 线 ， 束 可 以 取 一 个 
要 求 值 ， 然 后 在 线 上 找 出 与 实际 值 相对 应 的 点 。 


如 果 这 条 线 是 正确 的 ， 你 就 有 可 能 得 出 算法 中 的 未 知 部 分 。 
动 动笔 


为 了 想 办 法 画 出 正确 直线 ， 为 什么 不 利用 散 点 图 回答 关于 个 人 加 新 
幅度 的 一 个 特定 问题 ? 实例 如 下 。 


如 膝 某 人 提出 加 薪 8%， 结 采 他 可 能 得 到 多 少 ? 看 一 看 ， 通 过 散 后 图 
苹 否 能 看 出 要 求 加 薪 8% 的 人 实际 能 得 到 的 加 薪 ? 


时 好 观察 这 武 妆 二 
曙 ， 回 答 亲 题 . 
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报 示 ， 况 大 权 囊 加 新 8 % = 
访 范 转 疝 现 多 总 点 ! 


动 动笔 解答 
如 何 利用 散 点 图 确定 有 要求 加 薪 8% 有 可 能 得 到 什么 结果 ? 
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如 果 取 8% 范 围 (或 区 间 ) 内 的 各 个 点 的 实际 加 薪 平 均值 ， 则 结果 约 
为 8%。 从 平均 情况 看 ， 要 求 加 薪 8%， 则 实际 加 薪 8%。 


这 样 束 解答 了 一 个 人 群 ( 即 要 求 加 新 8% 的 人 群 ， 的 加 薪 问 题 。 其 他 
人 的 加 薪 要 求 则 不 一 样 。 


TR I HS po 结果 如 何 


使 用 平均 值 图 形 预 测 每 个 区 间 内 的 数值 

平均 值 图 是 一 种 散 点 图 ， 这 种 散 点 图 显示 出 与 X 轴 上 的 每 个 区 间 相对 应 

。 这 里 的 平均 值 图 告诉 我 们 提出 各 种 加 薪 幅 度 的 人 的 平均 得 到 
加 新 值 。 


平均 值 图 比 简单 地 求 总 体 平 均值 要 有 效 得 多 ， 正 如 你 所 知 ， 整 体 乎 均 加 
薪 幅 度 为 4%， 但 这 张 图 却 更 细腻 地 向 你 显示 出 整体 情况 。 


老 足 ， 载 执 丁 一 亲爱 穿 第 一 
张 琢 点 同上 欧 绩 。 拆 汐 苦 画 一 
条 贯穿 平均 便 蜀 萝 疙 1 


太志 
你 已 经 一 不 小 心 画 出 了 这 条 线 。 


真 的 。 画 一 条 线 把 平均 值 图 中 的 点 连 起 来 一 一 这 正 是 你 所 寻找 的 那 条 
线 ， 利 用 它 可 以 预测 每 个 人 的 加 薪 情 况 。 


回归 线 预测 出 人 们 的 实际 加 薪 幅 度 
这 就 是 它 一 迷人 的 回归 线 。 


回归 线 就 是 最 准确 地 贯穿 平均 值 图 中 的 各 个 点 的 直线 。 你 即将 看 到 ， 你 
不 仅 需 要 为 图 形 画 回归 线 。 


回归 线 可 以 用 简单 的 等 式 来 表达 ， 通 过 该 等 式 可 以 预测 某 个 范围 内 的 X 变 
量 对 应 的 Y 变 量 。 


employeesSreceived[employess$negotiated == TRUE] 


employaees$requestedfemployeesSnego'iated == TAUC] 


世上 没有 傻 问题 


间 : 为 什么 叫 回 归 线 ? 


答 :， 发现 这 个 方法 的 是 英国 科学 家 高 尔 顿 本 士 〈1822-1911) ， 当 时 他 正 
在 研究 如 何 通 过 父亲 的 身高 预测 儿子 的 身高 。 他 的 数据 显示 ， 从 平均 情 
况 看 ， 矮 个 子 的 父 杀 会 生出 比 自己 高 的 儿子 ， 而 高 个 子 的 父亲 会 生出 比 
自己 矮 的 儿子 。 他 把 这 种 现象 称 为 “向 平均 数 回 归 ”。 


问 : 听 上 去 挺 辫 乎 。 似 乎 回归 这 个 词 更 多 是 在 讲 高 尔 顿 对 父子 身高 的 感 
受 ， 而 不 是 有 关 统 计 问题 。 


没 错 。 回 归 这 个 词 的 历史 意义 更 其 于 分 析 启 示意 义 。 


问 : 我 们 一 直 在 根据 加 薪 要 求 预 测 加 藉 结 果 。 能 不 能 从 加 薪 结 果 预 测 加 
薪 要 求 呢 ? 能 不 能 从 Y 轴 预测 X 轴 呢 ? 


管 : 当然 能 ， 可 如 果 那 样 的 话 ， 你 所 预测 的 就 是 过 去 的 事情 。 如 果 某 人 
告诉 你 她 的 实际 加 薪 幅 度 ， 你 束 能 预测 出 她 的 有 要求 幅度 。 重 要 的 是 ， 无 
论 研究 什么 ， 都 要 坚持 进行 实际 检查 ， 确 保 能 追 踩 所 研究 的 对 象 的 意 
义 。 预 测 有 意义 吗 ? 


只 


问 : ”我 该 用 相同 的 线 从 Y 轴 预测 X 轴 吗 ? 


管 : 非 也 。 回 归 线 有 两 种 : 已 知 Y 求 XxX， 已 知 X 求 Y。 想 想 看 ， 平 均值 图 
有 两 种 : 每 张 图 代表 两 种 变量 中 的 一 种 变量 的 平均 值 。 


问 : ”回归 线 必须 是 直线 吗 ? 


管 : 不 一 定 是 直线 ， 只 要 有 回归 意义 就 行 。 非 线性 回归 是 一 个 更 为 复杂 
的 奇妙 领域 ， 不 在 本 书 讨论 范围 之 内 。 


你 忘记 一 些 事 了 。 你 确定 这 
条 线 真 的 有 用 吗 ? 我 是 说 
这 条 线 能 为 你 做 什么 呢 ? 


确保 你 画 的 线 确实 有 用 。 


散 点 图 的 外 观 丰 富 多 彩 ， 回 归 线 也 是 如 此 ， 问 题 在 于 散 点 图 中 的 回归 线 
和 有 多 大 用 处 * 


这 里 有 几 张 不 同 的 散 点 图 ， 每 张 散 点 图 中 的 回归 线 的 作用 都 与 其 他 散 点 
图 中 的 回归 线 的 作用 相同 吗 ? 或 是 茶 些 回归 线 似 乎 更 有 用 ? 


回归 线 对 于 具有 线性 相关 特点 的 数据 很 有 用 


相关 性 即 两 种 变量 之 间 的 线性 关系 ， 如 有 果 要 呈现 线性 关系 ， 散 点 图 上 的 
扩 束 需要 大 致 沿 着 直线 分 布 。 


相关 性 可 强 可 弱 ， 这 可 以 用 相关 系数 进行 量度 ， 相 关系 数 也 叫做 r (可 别 
和 大 写 R 搞 混淆 了 ， 那 是 个 软件 程序 。 为 了 让 回归 线 发 挥 作 用 ， 数 据 必 
须 显示 出 强烈 的 线性 相关 性 。 
r 的 范围 为 -1 至 1，0 表 示 无 相关 性 ，1 和 -1 表示 两 个 变量 完全 相关 。 

你 手头 的 加 薪 数 据 显 示 出 线性 相关 性 了 吗 ? 

预 编 程 代 码 

试 着 用 程序 R 计 算 加 薪 数 据 的 相关 系数 r。 输 入 并 执行 下 列 函 数 : 


cor(employees$requested[employees$negotiated==TRUE], 


employees$received[employees$negotiated==TRUE]) 


说 说 函数 中 的 各 个 因 于。 你 觉得 这 些 因 于 有 何 意 义 ? 


相关 函 数 的 输出 结果 与 散 点 独 相符 吗 ? 结果 数值 与 你 所 认为 的 两 个 
变量 之 间 的 关系 相符 吗 ? 
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employees$reguesled[employees$negoliated == TRUE] 


预 编程 代码 
你 刚刚 让 R 程 序 给 你 计算 过 两 个 变量 的 相关 系数 。 看 出 什么 了 ? 


一 一 一 一 入 阴 是 对答 骏 攻打 
半生 训 | 加 小 定 - 

car 为 数 告 沂 内 和 福 壬 流 辐 关 性 评 同 De $F. 

蒿 全 本 是 的 珠 共 毅 弄 ， a "WA 2 
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相关 函数 的 输出 结 采 与 散 点 图 相符 吗 ? 


相关 性 细节 
如 何 计算 相关 系数 ? 相关 系数 的 实际 计算 简单 而 乏味 。 
下 面 是 一 个 用 于 计算 相关 系数 的 算法 : 


上 
秆 流 良 途 塌 三 惩 个 赵 全 


白 平 识 合 及 椒 并 娘 关 ， 


世上 没有 傻 问 题 
问 : 可 以 看 出 ， 相 关 性 为 1 或 -1 就 有 充足 的 理由 使 用 回归 线 。 但 相关 性 低 
到 什么 程度 算 太 低 呢 ? 
管 : 只 需 根 据 具体 情况 尽量 作出 最 佳 判断 。 若 使 用 回归 线 ， 则 总 是 可 以 
通过 相关 系数 进行 定性 判断 。 
问 :可 我 怎么 知道 相关 性 低 到 什么 程度 算 太 低 呢 ? 
管 : 正如 对 待 一 切 统计 和 数据 分 析 问 题 一 样 ， 想 一 想 回 归 是 否 有 意义 。 
任何 统计 工具 都 不 会 无 往 不 利 ， 但 只 要 娴熟 地 使 用 这 些 工 具 ， 你 就 会 知 
道 它们 能 让 你 在 多 大 程度 上 接近 平均 值 。 调 动 你 的 一 切 判 断 能 力 回 答 这 


个 问题 : “这 个 相关 系数 够 高 吗 ? 足以 证 实 我 通过 回归 线 得 出 的 结论 
3? 39 


问 : 我 怎样 才能 断定 数据 为 线性 分 布 ? 


答 : 你 该 知道 ， 有 一 些 特别 的 统计 工具 可 以 用 来 定量 分 析 散 点 图 的 线 
性 ， 但 通常 目测 也 是 安全 的 。 


问 :， 如 果 我 展示 出 两 种 事物 之 间 的 线性 关系 ， 是 否 说 明 我 以 科学 的 方法 
证 明了 这 种 关系 ? 

管 : 未 必 。 你 只 是 指定 了 一 种 在 数学 意义 上 真正 有 用 的 关系 ， 但 这 种 关 
系 是 否 另 有 内 情 却 是 另 一 个 问题 。 你 的 数据 质量 确实 好 吗 ? 其 他 人 是 否 


反复 重复 了 你 的 结果 ? 做 好 解释 现象 的 准备 了 吗 ? 如 果 一 切 都 准备 践 
绪 ， 可 以 说 你 已 经 通过 严密 的 分 析 证 明了 某 件 事 ， 但 说 证 实 就 言 重 了 。 


问 : 散 点 图 中 将 放 进 多 少 记录 ? 


和 直方 图 一 样 ， 散 点 图 十 一 种 分 辨 率 很 高 的 显示 方法 ， 只 要 格式 正 
确 ， 可 以 在 图 上 绘制 成 千 上 万 个 点 。 散 点 图 的 高 分 辨 率 属 性 是 其 优点 之 


将 吧 ， 将 吧 ， 回 归 线 者 
用 。 系 过 有 一 个 阅 题 ， 回 
归 线 怎么 用 呢 ? 我 起 精确 
地 计算 特定 加 薪 柱 度 . 


为 了 进行 情 确 顶 测 ， 你 :将 
到 个 数学 西数 …… 


为 了 进行 精确 预测 ， 你 将 需要 用 到 一 个 数学 画 数 ….…. 
你 需要 用 一 个 等 式 进行 精确 预测 


利用 线性 方程 可 以 对 直线 进行 数学 表述 。 


* 串 习 雪上 网 全 在 地 鹿 中 为 
四 区 下 上 的 什 ， 在 耶 例 中 为 y=a+ bx 已 知 购 值 : 彼 永吉 产值， 
人 严 


要 预测 的 值 ， 实际 加 薪 傅 . \ 7 
【 Te 


你 的 回归 线 可 以 用 这 个 线性 方程 表示 。 只 要 知道 过 去 的 加 薪 数 据 ， 束 可 
以 在 x 变 量 中 代入 任何 加 薪 要 求 ， 继 而 得 出 该 要 求 对 应 的 加 薪 预 测 值 。 


你 只 需要 求 出 数值 a 和 和 b， 也 就 是 所 谓 的 系数 即 可 。 
a 代表 Y 轴 截 距 


线性 方程 右边 的 第 一 个 变量 代表 Y 轴 截 距 ， 即 直线 与 Y 轴 的 交点 。 


emplysyss>ouesl3] 3TFICYccs5n33o0aled == | FU -| 


如 采 散 点 图 上 恰好 有 一 些 点 落 在 x=0 范 围 的 周围 ， 就 能 找 出 该 区 间 的 平均 
值 点 。 我 们 没有 这 么 笠 运 ， 要 找 出 截 距 念 怕 还 得 多 费 点 儿 脑 筋 。 


b 代 表 斜 率 


一 条 线 的 斜率 即 对 一 条 线 的 角度 的 量度 。 线 的 斜率 越 大 ，b 值 越 大 ， 而 一 
条 相对 较为 平坦 的 线 的 斜率 则 会 接近 于 0。 为 了 计算 斜率 ， 可 测量 又 轴 


人 


这 LS 


线 的 斜率 代 泰 
线 的 角度 ， 


EE 
Rh 
杏 
9 
这 
中 
O 
中 
一 
人 
(用 
四 
可 
之 
到 
三 
9 


人 
归 线 。 


让 刺 为 我 找 出 斜率 和 
规 距 是 不 是 不 切实 际 
的 想法 ? 


让 R 创 建 一 个 回归 对 象 
如 果 和 希望 根据 一 个 变量 预测 另 一 个 变量 ， 只 要 将 后 者 提供 给 R，R 就 会 一 
口气 生成 一 条 回归 线 。 


过 程 的 基本 画 数 叫 做 “im”， 即 英文 线性 模型 这 两 个 词 的 首 字母 
。 每 当 创建 一 个 线性 模型 ，R 就 会 在 记忆 库 里 创建 一 个 对 象 ， 这 个 
对 象 愉 有 长 串 属性 ， 其 中 包括 回归 方程 的 系数 。 


验 烛 祝 碍 到 村 
小 心 ! 

任何 软件 都 无 法 判别 回归 线 是 否 有 用 

R 和 你 所 使 用 的 电子 数据 程序 能 够 神速 地 生成 回归 方程 ， 但 是 否 能 发 
挥 这 个 回归 方程 以 一 个 变量 预测 另 一 个 变量 ”的 作用 却 取决 于 你 。 
创建 无 用 、 无 意义 的 回归 方程 并 非 难事 。 

7 3 

斌 一 试 ， 用 R 创 建 自己 的 线性 回归 方程 。 


运行 下 列 公式 ,创建 一 个 线性 模型 描述 你 所 分 析 的 数据 ， 指 出 
回归 线 的 系数 。 


myLm <- lm(received[negotiated==TRUE] < 
requested[negotiated==TRUE], data=employees) 


myLm$coefficients 


利用 R 找 到 的 数字 系数 ， 写 出 你 所 分 析 的 数据 的 回归 方程 。 


你 用 R 算 出 的 系数 生成 了 哪个 公式 ? 


国 运行 下 列 公 式 ， 创 建 一 个 线性 模型 描述 你 所 分 析 的 数据 ， 指 出 
回归 线 的 系数 。 


> myLn <- lm(received[inegotiatcd==TRUE]~ raves te ned tLoted TRUET. data=cerployeces) 
ep ficients 


Ce requested[negotiated 一 TRUE] 
2.3121 Q.7258664 


利用 R 找 到 的 系数 ， 可 以 写 出 下 面 这 样 的 回归 方程 。 
re 
xxgs y=2.3+0. 7x 


这 是 截 虐 这 是 斜率 


要 未 加 薪 


技巧 


R 如 何 计算 斜率 ? 可 以 看 出 ， 回 归 线 的 斜率 等 于 相关 系数 乘 以 Y 的 标 
准 偏差 ， 再 除 以 X 的 标准 侦 差 


A b=rsayl oy 
a 
这 个 方程 社 算出 


回归 线 鬼 儿 妹 ， b=.67*3.1/12.8 =0.7) a 


唉 ， 只 能 说 ， 计 算 回 归 线 斜率 给 我 们 带 来 的 满足 在 于 一 一 我 们 能 
使 电脑 完成 尝 重 的 工作 ， 都 是 些 极其 党 复 的 计算 。 不 过 ， 重 要 的 是 
记 住 这 人 句 话 : 


只 要 能 看 出 两 个 变量 之 间 具 有 密切 的 关系 ， 只 要 回归 线 有 意义 ， 你 
就 可 以 充满 信心 地 让 软件 计算 各 个 系数 。 


回归 方程 与 散 扣 图 密切 相关 


以 要 求 加 薪 8% 员 工 为 例 (他 想 知 道 自己 会 加 薪 多 少 ; ， 翻 回 前 面 几 页 可 
以 看 到 ， 你 通过 观察 散 点 图 及 X 轴 上 8% 范 围 内 的 垂直 区 间 进 行 了 预测 。 


这 是 你 和 要 的 人 饼 率 ， 


通过 lm 函数 找到 的 回归 方程 得 出 了 相同 的 结 


这 是 回归 方程 预测 网 他 
将 得 到 的 加 薪 结 果 ， 
既然 如 此 ， 加 薪 计 算 器 是 什么 样子 呢 ? 


你 已 E 下 成 了 系列 漂亮 的 工作 ， 找 到 了 一 个 加 薪 数 据 回归 方程 。 这 个 
回归 方程 能 不 能 帮助 你 创建 一 种 产品 为 你 的 朋友 和 同事 提供 巧妙 的 薪资 


咨询 呢 ? 


/ 


你 还 级 在 这 几 域 
写 你 网 算 该 . 


加 薪 计 算 器 的 算法 正 是 回归 方程 


通过 细心 观察 过 去 提 过 不 同 加 薪 要 求 的 人 的 谈判 结果 ， 你 找 出 了 一 个 回 
归 方 程 ， 可 以 预测 给 定 加 薪 要 求 的 加 薪 结 果 。 


党 赔 潜 户 将 时 这 个 洲 担 


/未 计算 半期 训 匡 站 征 ， 
| 


YY 


对 于 正在 为 如 何 谈判 要 求 加 薪 而 犯愁 的 人 来 说 ， 这 个 方程 意义 非凡 。 这 
居 根 据 过 去 成 功 地 向 雇主 争取 到 更 多 新 水 的 其 他 人 的 数据 得 出 的 可 各 的 
分 析 。 


使 用 这 个 函数 对 于 R 来 说 只 是 简单 的 算术 问题 。 假 如 想 预 测 要 求 加 新 5% 
的 人 能 够 期 得 的 加 新 ， 可 用 下 列 代码 : 


将 变 生 my_raise 裕 
翅 5 (Fs PET 
os 
8 
mA Fawdn [人 
2 


> my_raise <- 5 < 一 
> 2.3 + 0.7*my_raise 
Hae 将 my7_Taisefu 人 [11 :5:8 i 
加 各 方程 …'" | 一 一 等 过 在 此 | 要 市 加 医 


5 党 风 预 戎 加 霖 5 ,3% ， 


一 
产 


世上 没有 傻 问 题 


问 : 我 怎么 知道 人 们 为 明天 提出 的 目标 会 不 会 和 今天 已 经 得 到 的 结果 相 
似 ? 


管 : 这 是 回归 分 析 的 一 个 大 问题 。 不 仅 要 问 “ 明 天 与 今天 会 有 几 分 相 
似 ? ”而且 要 问 “要 是 明天 变 个 样 ， 我 的 业务 会 怎么 样 ? ”， 管 案 是 一 一 
你 无 法 知道 明天 是 否 会 像 今天 一 样 。 变 化 难免 会 发 生 ， 有 时 还 会 天 差 地 
别 。 发 生变 化 的 可 能 性 大 小 及 其 意义 取决 于 问题 类 型 。 


间 :， 为 什么 会 这 样 ? 


管 : 喔 ， 对 比 一 下 医疗 数据 和 消费 者 偏好 吧 。 人 体 明天 突然 改变 生存 方 
式 的 可 能 性 有 多 大 ? 可 能 性 不 是 没有 ， 尤 其 是 环境 发 生 突 变 ， 但 可 能 性 
不 大 ; 消费 者 偏好 明天 发 生 改变 的 可 能 性 有 多 大 ? 你 可 以 打赌 ， 消 费 者 
偏好 会 改变 ， 大 大 改变 。 


问 : 那 为 什么 还 要 劳 神 作 预测 呢 ? 


管 : 举 个 例子 ， 在 网 络 世界 里 ， 优 秀 的 回归 分 析 能 在 一 段 时 间 里 产生 巨 
大 利润 ， 哪 怕 明 天 就 失去 预测 能 力也 没关系 。 想 想 你 自己 的 行为 吧 ， 对 
于 一 家 在 线 书 店 来 说 ， 你 ， 不 过 是 一 个 数据 集 。 


问 : 挺 郁 问 的 。 


管 : 并 非 如 此 一 一 这 说 明 书 店 知道 如 何 为 你 提供 你 需要 的 东西 。 你 是 一 
个 数据 集 ， 书 店 对 你 这 个 数据 集 进 行 回 归 分 析 ， 预 测 你 要 买 的 书 。 除 非 
你 的 品位 发 生 改 变 ， 否 则 这 个 预测 一 直 有 效 。 寿 你 的 品位 变 了 ， 开 始 买 
其 他 书籍 ， 书 店 束 会 再 次 进行 回归 分 析 ， 从 而 获取 新 信息 。 


问 : ”这么 说 ， 要 是 外 界 条 件 发 生 改变 ， 回 归 分 析 不 再 有 效 ， 我 就 得 进行 
更 新 了 ? 


答 : 再 说 一 遍 ， 这 取决 于 你 的 问题 类 型 。 要 是 你 有 充足 、 定 性 的 理由 相 
信 你 的 回归 分 析 是 正确 的 ， 那 么 有 可 能 永远 不 需要 改变 分 析 。 可 要 是 你 
的 数据 不 停 地 变化 ， 那 就 应 该 不 停 地 进行 回归 分 析 并 善 加 利用 : 若 回归 
分 析 是 正确 的 ， 你 会 得 益 ; 但 要 是 现实 改变 、 回 归 分 析 失 败 ， 也 不 至 于 
影响 你 的 业务 。 


问 : 人们 不 该 看 见 别人 加 多 少 薪 就 要 求 给 自己 加 多 少 薪 吧 ? 应 该 认为 自 
己 值 得 加 多 少 薪 束 要 求 加 多 少 薪 吧 ? 


答 : 问 得 很 好 。 这 个 问题 其 实 是 你 的 部 分 心智 模型 ， 统 计 方 法 无 法 判断 
你 要 做 的 事 是 否 合情合理 。 对 于 定性 问题 ， 作 为 分 析 师 ， 你 需要 尽 最 大 
努力 进行 评估 。 (不 过 直截了当 的 回答 是 你 配 大 幅度 加 薪 ! ) 

练习 


接 竺 你 的 第 一 批 客 户 ! 听取 他 们 的 感受 ， 写 下 你 认为 他 们 适合 提出 
哪 种 加 薪 要 求 ， 用 R 计 算 他 们 的 预期 结果 。 


A a 
9 .: + 
癌 鞍 出 否 了 ， 汽 相沿 位 由; “了 
i 一 


KN 

3 
我 年 殿 苷 性 从 么 窟 ， 符 
阔 建 及 个 < 一 点 及 刘 字 
到 ， 中 半 的 ， 


练习 解答 
你 给 这 两 位 首 批 客户 提 了 什么 建议 ? R 为 他 们 算出 来 的 预期 加 薪 是 多 


少 ? 


QO 


我 于 和 节 迭 位 何 有 星 由 ， 招 
我 建议 修 小 一 点 的 数目 
吧 ， 中 等 蝎 。 


坑 炸 出 击 了 ， 我 要 两 钴 娄 ! 


你 可 锯 选 捍 基 他 数 守 ， 


_ 


为 什么 未 要 35%3? 这 个 数目 


受 区 流 进 前 加 莱 要 尺 是 152%6。/ 
位 于 举 标 葵 滨 . 


py. 


personl <- 3<— 
> 2.3 + 0.7*person1 
[1] 4.4« 


> person2 <- 15=— 
> 2.3 + 0.7*person2 
[1 2 8 


| 要 汕 15236 的 人 只 党 得 下 大 娩 12.896 ,4 


来 看 看 结果 吧 .…… 
你 的 加 薪 计 算 器 没有 照 计 划 行 事 .……. 
人 们 纷 至 珍 来 ， 请 你 提供 建议 ， 你 顺利 地 完成 了 第 一 波 业务 。 


SD 
J ! 


蝶 加 了 5361 我 护 桔 海 敲 ， 
仁太 睿 可 ， 训 案 用 总 件 宕 
和 未 了 1 


12,8562? 网 于 ， 我 得 
Z5%， 你 就 汽 个 迷津 
评 邑 , 


你 的 客户 是 怎么 执行 你 的 建议 的 ? 那些 闷闷不乐 的 人 有 什么 不 对 ? 
欲 知 后 事 如 何 ， 请 听 下 回 分 解 .…… 


11 误差 
合理 误差 


世界 错综复杂 。 

预测 有 失 精 准 并 不 稀奇 。 不 过 ， 如 果 在 进行 预测 的 时 候 指 出 误差 范围 ， 
你 和 你 的 客户 束 不 仅 能 知道 平均 预测 值 ， 还 能 知道 该 误差 造成 的 典型 偏 
莽 ， 指 出 误差 可 以 让 预测 和 信念 更 全 面 。 通 过 本 章 讲 授 的 工具 ， 你 还 会 
懂得 如 何 控制 误差 及 如 何 尽量 降低 误差 ， 从 而 提高 预测 可 信和 度 。 


客户 大 为 恼火 


在 上 一 章 中 ， 你 创建 了 一 个 线性 回归 算法 ， 这 个 工具 能 根据 人 们 要 求 的 
加 薪 幅 度 预 测 他 们 的 实际 加 薪 幅 度 。 


许多 客户 都 在 使 用 这 个 加 薪 算 法 。 


ORAL 
我 加 了 +.5% . 算 未 烙 了 ， 我 可 
过 是 臣 旭 查询 数 E 。 原 该 插 腔 上 
傣 太 党 张 了 ， 弄 耕 都 冰 未 由 提 庆 


他 笃 全 弄 了 ， LA/ 


eS 
(各 入 机 | 岂 用 本 内 要 了 本 
5,0%1 党 该 笠 时 前 老 打 考 极 |】 
除 畏 位 丁 。 亿 升 巾 投 斩 身上 袜 人 
代 了 | 人 A 
wr 4 其， 我 一 分 牧 坎 流 加 ， 泊 见 了 
全 二 ?0.0 中 。 对 于 你 那个 并 演 ， 
对 各 很 哨 总 郭 ， 
全 a 
a > A 
/者 机 了 | 代购 各 并 禄 康 和 


痛 中 来 沪 -- 撕 一样 。 侣 和 
从 说 ， 好 太 神 ?了 。 停 肖 定 
人 de 


交 乒 条 法 痕 。 
有 


A/ sty. 号 技 加 幕 意 诬 史 3 
活 糙 慎 汽 了 0D.5%6 ,人 羽 证 业 很 可 讽 。 


和 守 全 扯 倍 ， 系 总 外 此 不 会 各 这 名 


了 ps 


你 的 加 薪 预 测算 法 做 了 什么 ? 


加 攻 计 算 瞎 


提出 条 种 加 条 要 求 后 会 得 到 什么 结果 呢 ? 


用 下 面 这 个 方程 求 出 答案 : 


其 中 x 是 墨 求 剖 度 ，y 是 预期 得 到 的 客 度 ， 


人 人 用 的 都 是 立足 于 可 靠 实证 数据 的 同一 个 公式 。 
可 人 们 的 遭遇 看 上 去 却 通 然 不 同 。 

奥妙 何在 ? 

动 动笔 


对 开 页 的 各 种 说 法 是 定性 数据 ， 说 明 你 的 回归 算法 的 有 效 性 。 你 将 
如 何 给 这 些 说 法 归 类 ? 


动 动笔 解答 
你 从 性 质 方面 仔细 观察 了 客户 对 加 薪 预 测算 法 的 反应 。 结 果 如 何 ? 


各 种 说 流 


和 


说 ， 这 太 神 了 ， 你 肯定 有 某 种 天 分， 你 让 我 的 世界 大 
变样 了 . 
RE 


我 非常 高 淮 。 虽 小 加 薪 注 度 史 预料 值 低 了 
0.5% ,但 还 是 很 可 现 。 我 完全 相信 ， 未 谍 
是 孙 会 加 这 人 么 多 购 ， 


\ 这 一 位 吗 加 薪 福 度 接 


滑 | 但 牙 、 党 会 里 合 


对 ， 我 一 仿 钱 也 设 加 ， 听 见 了 吗 ? 
0.09%6。 对 于 你 网 算 法 ， 我 很 有 意见 


无 法 相信 1 比 算 出 的 结果 多 加 了 
5.0% 1 我 谈判 时 肯 完 把 老 极 给 镇 人 
了 ,他 开始 入 我 身上 磺 钱 了 1 这 两 位 看 来 


| 下 : 
测 值 ;第 二 种 是 所 得 结果 略 有 偏差 1 真 趾 有志 
位 RN 而 最 后 一 种 呢 ， 除 非 有 一 大 帮 了 人 都 记 不 住 


五 刚 这 个 结果 丽 怕 对 你 用 处 不 


这 一 位 不 常见 ， 很 难 对 
这 相 的 说 法 下 结论 . 


栽 加 了 4.5%， 算 示 错 了 ， 我 想 这 是 我 该 得 
的 数目 ， 我 谈话 的 时 候 太 紧 张 了 ， 现 在 都 想 


秒 起 提 过 什么 要 束 了 。 


客户 组 成 


记 住 ， 回 归 方 程 预测 的 是 人 们 平均 得 到 的 结果 。 显 然 ， 并 不 是 每 个 人 都 
能 和 平均 值 一 样 。 


练习 
让 我 们 机 看 几 个 客户 反 色 。 下 面 这 些 反 锁 比 前 面 几 个 反馈 稍微 特别 


把 要 求 加 薪 和 实际 加 薪 的 情况 画 在 一 张 散 点 图 上 ， 用 箭头 指出 下 面 
这 些 客户 在 散 点 图 上 的 位 置 。 


和 
6 
\、 果 加 了 10%， ) 
a 
O 


栽 要 束 82%6 ， 千 
果 加 了 7%6。 


条 要 事 25% ， 络 累加 
bE 坏 鹤 解 
声 了 ! 


注意 到 特别 之 处 了 吗 ? 


呈 申 硬 二 二 昌 汪 二 二 日 硬 硬 日 恒 和 人 本 证 可 和 可 让 二 中 一 和 二 和 下 让 二 和 证 本 二 机 硬 本 二 可 厂 可 硬 瑟 二 本 


看 让 届 中 量 和 届 二 


| 


练习 解答 


你 刚刚 在 散 点 图 上 添上 了 代表 三 个 客户 的 新 点 ， 看 出 什么 了 ? 


5%, 
i 入 教 要 求 896 ， 结 
A 果 加 了 7 史 ， 


S 


马 
9 
此 人 出 驶 音 密 和 集 需 
“| 察 区 将 中 天。 
| 
\ vv 


图 上 . 


加 划 馈 判 半 果 


一 
ts 


TO ,si 我 族 凶 


他 站 阅 和 计 | 


要 求 加 薪 25% 的 家 伙 不 在 模型 范围 内 
用 回归 方程 预测 数据 范围 以 外 的 数值 称 为 外 插 法 。 小 心 外 插 法 ! 


回归 线 渐 行 淹 寺 。 。 


加 菜 蘑 浏 地 果 


你 对 这 里 发 生 的 情况 并 不 了 解 。 若 你 拥有 更 多 的 数据 ， 也 许可 以 用 方程 
式 来 预测 激进 的 加 薪 要 求 带 来 的 结果 。 


0 0 
外 插 法 与 内 插 法 有 所 不 同 ， 内 播 法 对 数据 范围 内 的 点 进行 预测 ， 这 正 是 
回归 法 的 本 来 目的 。 内 插 法 很 准确 ， 但 使 用 外 插 法 就 得 小 心 了 。 


人 们 随时 都 在 使 用 外 插 法 。 不 过 ， 如 果 打 算 使 用 外 插 法 ， 就 需要 指定 附 
加 假设 条 件 ， 明 确 表示 不 考虑 数据 集 外 发 生 的 情况 。 


动 动脑 
和 
? 


如 何 对 行 想 对 数据 范围 以 外 的 情况 进行 预测 的 客户 
根据 假设 进行 预测 


要 是 有 客户 想 对 数据 范围 以 外 的 情况 进行 预测 ， 基 本 上 有 两 种 可 能 的 答 
复 : 一 古 无 可 奉 告 ， 二 是 提出 一 个 假设 ， 据 此 进行 预测 。 


根据 假设 进行 预测 : 


芷 宗 航 记 无 法 崔 戌 们 视 示 。 和 趟 
这 ， 帮 . 皇 夕 县， 图 出 闫 来 训 30326 
记 是 合 其 蛤 。 总 认为 你 金 栓 型 20% 汪 |、 


无 可 地 上 告 : 


过 可 入 和 睹 。 要 号 你 委 
市 25 匆 ， 才 示 加 句 会 有 有 
什 妈 项 闲 、 


哪个 答复 对 客户 更 有 用 ? 第 二 个 答案 可 能 会 让 客户 感到 满意 ， 因 为 客户 
得 到 了 具体 的 预测 ， 但 是 ， 低 劣 的 预测 比 不 作 预 测 更 糟糕 。 


世上 没有 傻 问题 
问 : 到底 在 数据 范围 以 外 发 生 哪 种 情况 会 引发 这 样 的 问题 ? 


管 : 在 你 所 用 的 数据 范围 以 外 ， 可 能 根本 就 没有 数据 。 就 算 有 数据 ， 也 
征 大 相 径 隆 。 这 些 数据 甚至 可 能 是 非 线性 的 。 


问 : ”但 我 不 一 定 要 把 所 有 数据 点 都 放 在 数据 范围 内 。 

管 : 没 错 ， 这 是 数据 质量 和 抽样 问题 。 要 是 你 用 的 不 是 全 部 数据 ， 而 是 

.0 那么 就 要 确保 这 些 抽 样 数据 能 代表 整个 数据 集 ， 从 而 能 够 据 
芯 模 型 。 


问 : 考虑 在 各 种 假设 的 、 纯 推理 的 条 件 下 发 生 的 情况 难道 是 多 此 一 举 
吗 ? 


管 : 非 也 ， 肯 定 应 该 考虑 。 但 这 需要 训练 ， 确 保 你 对 假设 情况 的 想法 不 
会 影响 到 你 对 现实 情况 的 想法 〈 及 行动 ) 。 


问 : ”对 未 来 进行 预测 不 算 外 插 法 吗 ? 


管 : 是 外 插 法 ， 但 这 是 否 会 带 来 问题 则 取决 于 你 的 研究 对 象 。 你 的 观察 
对 象 会 在 未 来 发 生 彻头彻尾 的 改变 还 是 相当 稳定 ”宇宙 的 物理 定律 可 能 
不 会 在 下 个 星期 发 生 巨变 ， 但 证 券 市 场 的 各 种 关系 却 有 这 种 可 能 。 考 虑 
这 些 问 题 将 会 帮助 你 懂得 如 何 使 用 自己 的 模型 。 


小 心 ! 
千 万 要 对 模型 假设 保持 戒心 。 


观察 他 人 的 模型 时 ， 一 定 要 想 一 想 他 们 的 假设 有 何 道理 ， 以 及 他 们 
征 否 把 记 了 茶 种 假设 。 不 合适 的 假设 会 使 模型 完全 失效 一 一 这 还 算 
征 最 好 的 结果 最 坏 的 结果 和 是 具有 危险 的 欺 独 性 。 

建立 模型 


看 看 下 面 这 一 连 串 针对 加 薪 计 算 器 的 假设 ， 要 是 某 个 假设 正确 ， 会 引起 
模型 发 生 哪 种 改变 ? 


在 数据 范围 内 ， 几 年 来 的 经 济 效 益 都 大 致 相同 ， 可 今年 赚 的 钱 少 多 了 。 


moannmnnnsnss 


在 我 们 拥有 的 数据 范围 内 ， 所 有 的 加 薪 工 作 都 由 同一 位 老板 负责 ， 但 他 
离开 了 公司 ， 这 个 工作 由 男 外 一 位 老板 接管 。 


meannmsnnsnssn 和 a 


CE 


各 个 点 在 20% 一 50% 范 围 内 的 分 布 情况 与 在 10% 一 20% 范 围 内 的 分 布 情况 
看 起 来 很 相似 。 


人 


warmssnssn 


看 看 下 面 这 一 连 串 针对 加 薪 计 算 器 的 假设 ， 要 是 某 个 假设 正确 ， 会 引起 
模型 发 生 哪 种 改变 ? 


在 数据 范围 内 ， 几 年 来 的 经 济 效 益 都 大 致 相同 ， 可 今年 赚 的 钱 少 多 了 。 


齐 技 但 并 廊 轩 丈 返 范 轩 内， 所 育 的 加 敬 二 作 导 让 问 全 名 


宣 讲评 鹃 本 曲 i A ry ~ 
ad it $， 但 屏 商 于 了 公司 ， 这 个 上 作 忆 另外 一 习 沁 梳 按 管 
¢ 把 除 殉 请 和 划 响 


新 才 才 本 全 全 有 不 同 的 想 肪 ， 记 主 全 推 和 措 香 ， 


一 你 区 谈 江 方式 六 车 友 外 姑 生 是 了 和 大 影响 。 
i 汐 这 个 撕 屋 肯定 正 政 ， 数 据 会 玉 出 出 各 若 位 化， 因 业 模型 秆 数 。 


各 个 志 在 2C 加 -55 吕 这 对 上 计 部 | 分 行 轩 六 外 三 10 澡 -20 吃 范 忆 内 
衣 分 布 沉 疯 宕 起 来 程 帮 介 。 


她 尿 这 个 幢 设 正确 ， 亏 尺 外 执 回 昭 方 程 。 


别 实 总 胸 数 握 -…… 摇 而 
已 证 囊 雇 蒜 碳 榴 加 基站 
可 带 来 蚁 平 雪 加 霖 全 黑 


只 有 高 全 一 亏 去 求 加 委 


如 杂 这 个 坑 设 正确 ， 风 这 小 祝 来 色 于 娃 个 马 ， 


既然 已 经 考虑 了 各 种 假设 对 模型 的 影响 ， 现 在 要 做 的 束 是 改变 算法 ， 从 
而 让 人 们 知道 如 何 使 用 外 播 法 。 


动 动笔 


1 需要 调整 算法 ， 指 导 客 户 回 避 外 播 法 的 陷阱 。 你 会 增加 哪些 内 容 
呢 ? 


加 薪 让 算 虞 


提出 某 种 加 翰 要 求 后 会 得 到 什么 结果 呢 ? 
用 下 面 这 个 方程 求 出 答案 ; 


在 这 壬 写 下 使 用 站 a 


族 法 絮 整 冰 . 其 中 x 是 要 求 阁 室 ，Y 是 预期 得 到 的 颠 度 。 
好 


加 薪 谈 羯 结果 


要 求 加 薪 


你 会 如 何 向 客户 说 明 他 们 需要 避免 外 插 法 ? 


EE 
ENNIS 
PE 


动 动笔 解答 
如 何 修改 加 薪 算 法 能 确保 客户 不 外 插 到 数据 范围 以 外 ? 


加 菏 计 算 恬 
2 


提出 某 种 加 薪 要 求 后 会 得到 什么 结果 呢 ? 
用 下 面 这 个 方程 求 出 答案 : 


其 中 x 是 要 求 额度 ，y 是 预期 得 到 的 额度 


但 这 个 公 训 只 在 如 菜 要 求人 2 从 本 0260 
要 2226 安 网 明 有 站 。 


你 的 显 玉 加 蘑 娄 只 
es / 
总 国企 延 钟 到 让 上 几 5 


| 
只 要 孝 这 22 和 8 ， 永 无 汇 
知 进 会 故 生 什么 情况 ， 


你 会 如 何 改变 算法 ， 指 点 客户 避免 外 插 ? 


| 至 大 所 十 八 风 
归 方 程 仅 适 菏 :在 0% 到 22% 之 间 的 情况 。 你 也 可 上 
< 下 SS 口 人 台 书 人 并 全 | 多 线 日 量 上 *、\ 


由 于 使 用 外 揪 法 而 惨遭 解雇 的 家 伙 冷 静 下 来 了 


喀 ， 起码 体 作 艇 释 网 有 时候 修 
正 了 自己 网 分 析 ， 祖 公道， 

下 次 我 准备 要 书 加 萧 明 时 候 还 
找 你 。 


经 过 改进 的 新 回归 公式 很 少 再 让 客户 走 进 未 知 统计 地 带 。 
这 么 说 ， 你 的 工作 到 此 为 止 了 ? 


你 只 解决 了 部 分 问题 


还 有 许多 人 的 加 薪 结 末 存 在 扭曲 ， 但 他 们 所 要 求 的 加 薪 幅 度 束 在 你 的 数 
据 范 围 内 。 


你 该 为 这 些 人 做 什么 呢 ? 


发 普 事 8% ， 妊 
好 加 了 ?7%. 


炬 要 求 5 纪 ， 和 车 
来 各 了 1096. 


“二 

二 要 人 

路 让 如 站 人 作 名 伯 生 条 次 
- Om 


扭曲 的 加 薪 结 有 果 数 据 看 起 来 是 什么 样子 ? 
再 看 一 看 你 的 图 形 和 回归 线 。 为 什么 人 们 的 实际 加 新 不 正好 等 于 他 要 求 
的 加 薪 呢 ? 


加 本 访 旨 结果 | 纲 人 作 了 能 科 . 


人 谨 是 苛 常 恼 上 ， 一 一 


是 什么 原因 造成 了 这 种 偏离 预测 结果 的 现象 呢 ? 


机 会 误差 = 实际 结果 与 模型 预测 结果 之 间 的 偏差 


无 论 你 的 回归 分 析 是 否 无 可 挑 别 ， 都 免不了 要 进行 这 样 那样 的 预测 。 这 
些 预 测 很 少 不 偏 不 倚 ， 这 种 实际 结果 与 预测 结果 之 间 的 偏差 叫做 机 会 误 


O 〇 


机 会 误差 又 称 为 残 差 ， 对 残 差 的 分 析 是 优秀 的 统计 模型 的 
i 


分 析 
弓箭 手 会 射 中 哪里 ? 


时 间 


尽管 你 可 能 永远 无 法 恰当 地 解释 每 个 偏离 模型 的 残 差 的 原因 ， 但 必须 小 
心 观察 散 扣 图 上 的 残 差 。 


如 采 你 能 正确 地 解释 残 差 ， 吕 能 更 好 地 理解 手头 的 数据 以 及 模型 的 用 


YY 
Zs ° 


预测 总 是 与 机 会 误差 同 在 ， 你 可 能 永远 也 想 不 通 目 己 的 数据 中 为 
什么 会 出 现 机 会 误差 。 


动 动笔 
最 好 进一步 调整 你 的 算法 : 这 一 次 ， 你 可 能 应 该 描述 误 郑 。 


下 面 古 一 些 有 可 能 添加 到 算法 中 的 关于 误差 的 前 提 条 件 ， 你 打算 将 
哪 一 个 添加 到 算法 中 ? 


“由 于 存在 机 会 误差 ， 模 型 可 能 无 法 为 你 指出 预测 结 采 。” 


Bb a S06 os Dp 0 0 nD uD PD" Ro Dba op DD DD ND Db 


“我 们 只 为 符合 模型 结 采 的 实际 结果 提供 担保 。 


站 


“你 得 到 的 结 采 可 能 会 在 预测 值 上 下 20%。” 


BND SG 0 从 全 区 .BD 0 DD a Bp 


a 由 于 存在 机 会 误差 ， 你 个 人 的 结 采 可 能 会 不 同 于 预测 结 


居多 | 


加 新 计算 磺 


BS od 
其 岂 基 利加 前 守 志 后 全 后 到 什么 半 果 呢 ? 则 
访 个 方 墅 求 出 符 束 ， 


其 中 rz 是 暑 求 害 区 ，? 是 刹 期 神 到 的 宕 攻 ， 但 : 
全 全 和 个 攻 [x| 奏 于 1 到 223% 之 问 


此 入 过 亢 亲 件 会 
出 钢 旬 这 岂 ,. 


动 动笔 解答 


人 令 它 包含 机 会 误差 。 现 在 这 个 算法 表现 如 
可 ? 


“由 于 存在 机 会 误差 ， 模 型 可 能 无 法 为 你 指出 预测 结 采 。” 


“我 们 只 为 符合 模型 结果 的 实际 结果 提供 担保 。” 


文 不 过 是 之 无 意义 的 口号 。 只 有 在 结果 符合 模型 预期 的 时 候 才 为 结 
旦 供 担 保 ? 星 .不 符合 预期 呢 ? 真有 你 的 。 


由 于 存在 机 会 误差 ， 你 个 人 的 结 采 可 能 会 不 同 于 预测 结 


正确 ， 但 不 是 特别 让 人 满意 。 除 非 我 1 效 的 工具 ， 否 则 这 


加 新 计算 兢 


2 
提出 其 种 加 六 下 求 后 全 贸 到 什 勾 绾 果 呢 用 下 
向 这 个 方程 救出 从 案 


eggs 
su 


用 (y=. 3+0.7x, ) 


只 中 x 是 要求 贸 医 ，y 是 瑟 基 敌 到 的 姻 卫 。 们 放 
纹 症 闪 如 人 参 课 个 全 式 只 在 加 莉 材 求 1x1 介 于 0D% 到 22% 之 站 
直子 叶 有 区 , 
为 本 天 be 
请 注 和 大， 贝 于 总 在 所 会 课 兰 ， 售 个 福光 


玉 、 也 修 洒 本 作 革 同 于 讽 闻 结 漂 ，....... 


re 


pp 
’ 


i scr 
一 蝶 寺 馈 把 前 涝 打 斌 | 
(si | 
D0 站 pe 
O ee 从 CT 
\ 吓 谍 站 怠 要 本 全 
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你 失去 了 所 有 客户 。 


这 事 儿 挺 难 开口 的 :你 的 整个 业务 都 完了 。 薪 资 算法 中 的 最 后 一 行 成 了 
一 条 分 界线 : 人 们 认为 你 能 帮忙 ， 或 是 人 们 认为 你 的 产品 一 文 不 值 。 


你 打算 如 何 修复 自己 的 产品 ? 
误差 对 你 和 客户 都 有 好 处 


你 越 是 对 客户 将 在 预测 结果 中 发 现 的 机 会 误差 漫不经心 ， 你 和 客户 的 距 
离 束 越 远 。 


你 的 客户 你 的 产品 


不 现实 的 预期 


团 若 同 问 


es 
a Cm )] en, 
略 误 关 想当然 的 错觉 0D 
> a 


\ 斌 是 密 户 卓识 


ae 
浇 牙 是 二 里 隘 ， 但 各 扫 | 


ee 
~ 一 人 人 人、 
[2 


指出 误差 并 不 意味 着 你 的 分 析 是 错误 的 ， 只 


能 说 明 你 对 预测 的 真实 程度 
和 


能 根据 预测 作出 正确 的 决 


让 我 们 定量 地 指出 误差 .…. 
机 会 误差 访谈 
本 周 访谈 : 
什么 是 机 会 ? 
Head First: 伙计 ， 你 是 我 的 眼中 钉 肉 中 刺 。 
机 会 误差 ， 说 清楚 点 ? 


Head First。 是 这 样 。 因 为 你 的 原因 ， 利 用 回归 分 析 永远 无 法 做 出 正确 
测 。 


机 会 误差 : 什么 ? 各 种 测量 方法 都 少不了 我 ， 尤 其 是 回归 分 析 。 


Head First: 呼 ， 只 要 有 你 在 ， 谁 会 信任 回归 预测 ?要是 我 们 的 客户 想 知 
道 提 出 加 薪 后 能 够 到 手 多 少 ， 他 们 不 会 愿意 听见 我 们 说 “模型 预测 结果 和 
实际 得 到 的 结果 难免 、 可 能 有 误差 ”|! 


机 会 误差 你 全 搞 错 了 。 你 应 该 这 样 看 待 我 : 机 会 误差 始终 存在 ， 但 只 
要 懂得 如 何况 别人 解释 区 并 不 可 怕 。 


Head First: 这 么 说 误差 不 一 定 是 个 坏 字眼 。 


机 会 误差 : 绝对 不 是 ! ! ! 误差 能 派 上 用 场 的 地 方太 多 了 。 实 际 上 ， 要 
是 人 们 经 党 以 更 受 当 的 方法 指出 误差 ， 世 界 会 更 美好 。 

Head First: 好 吧 ， 既 然 如 此 ， 我 现在 打算 这 么 做 一 一 假定 有 一 个 人 想 知 
道 提出 加 薪 7% 的 要 求 会 珊 来 多 少 加 新 ， 我 驶 说 : “模型 预测 结果 征 796， 
但 机 会 误差 指出 你 可 能 会 得 到 其 他 结果 。” 


机 会 误差 : 这 么 说 怎么 样 : 如 果 要 求 加 薪 7%， 可 能 得 到 6% 至 8%。 听 上 
去 是 不 是 好 一 些 ? 


Head First: 听 上 去 一 点 儿 不 吓人 1! ! ! 真 的 这 么 简单 ? 

机 会 误差 : 没 错 ! 喔 ， 可 以 这 么 说 。 实 际 上 ， 控 制 误差 才 是 真正 的 大 问 
题 ， 你 可 以 找到 一 大 堆 统 计 工具 来 分 析 和 描述 误差 ， 但 最 重要 的 是 ， 要 
知道 ， 指 出 预测 范围 比 单单 指出 一 个 数字 有 用 得 多 (并 且 可 靠 得 多 ) 。 
Head First: 我 能 用 误差 范围 来 描述 主观 概率 吗 ? 

机 会 误差 : 可 以 ， 而 且 确 确实 实 应 该 这 么 做 。 再 举 个 例子 ， 请 问 下 面 哪 
一 位 分 析 师 思路 更 严密 : 一 个 说 他 相信 明年 股市 会 上 涨 10%; 另 一 个 说 他 
认为 明年 股市 会 上 涨 0%-20%? 


Head First: 这 还 用 说 ， 第 一 位 不 会 真 认为 股市 会 正好 好 上 涨 10%， 男 一 
位 更 理性 。 


机 会 误差 : 答对 了 3 
Head First: 那么 ， 你 说 你 来 自 哪 里 ? 


机 会 误差 : 哦 ， 答 案 可 能 不 太 妙 。 很 多 时 候 都 无 法 知道 机 会 误差 来 自 哪 
里 ， 尤 其 是 对 于 单一 观察 对 象 。 


Head First: 是 吗 ? 你 是 说 不 可 能 解释 观察 结 采 为 什么 会 偏离 模型 预测 结 
朱 吗 ? 


机 会 误差 : 有 一 部 分 偏差 能 解释 。 例 如 ， 你 可 能 能 够 把 一 些 数据 点 集中 
起 来 ， 借 此 减 小 机 会 误差 。 但 在 某 种 程度 上 机 会 误差 还 是 会 存在 。 


Head First: 这 人 么 说 我 的 工作 就 是 尽量 让 你 变 小 ? 


机 会 误差 : 你 的 工作 应 该 是 尽量 为 自己 的 模型 和 分 析 增 加 解释 和 预测 功 
能 ， 也 就 是 要 周到 地 对 竺 我， 而 不 是 甩 掉 我 。 


定量 地 指定 误差 


实际 结果 恰好 等 于 预期 结果 是 件 让 人 高 兴 的 事 ， 但 真正 的 问题 在 于 机 会 
误差 如 何 分 布 ( 残 差分 布 ) 。 


你 需要 一 个 统计 值 ， 通 过 它 体现 出 典型 的 点 〈 或 称 为 观察 结果 ) 相对 于 
回归 线 的 平均 偏 移 量 。 


加 新 说 判 结果 
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/一 曙 ， 听 起 来 像 标准 偏 关 ， 标 


( 准 偏 又 体现 出 典型 拘 点 相对 《 
a 于 平声 观察 结 景 沟 偏 差 。 


确实 如 此 。 作 为 一 种 量度 方式 ， 相 对 于 回归 线 的 机 会 误差 (或 者 称 为 均 
方 根 误差 ) 的 分 布 与 相对 于 平均 值 的 标准 偏差 具有 相同 的 用 途 。 


有 了 回归 线 的 均 方 根 误 差 值 ， 就 能 告诉 客户 实际 结果 与 典型 预测 结果 之 
间 可 能 有 多 大 差距 。 


用 均 方 根 误差 定量 表示 残 差 分 布 


还 记得 标准 偏差 的 单位 吗 ? 和 测量 对 象 的 单位 一 样 ， 如 果 最 终 得 到 的 加 
缆 的 标准 信 差 为 5%， 屠 么 典型 的 观察 结 果 相 对 于 回归 方程 预测 出 来 的 人 
闪 会 俩 圈 596。 


均 方 根 误 差 也 十 如 此 。 假 如 ， 根 据 要 求 值 预测 实际 值 的 均 方 根 误差 为 
5%， 那 么 ， 典 型 的 观察 结果 与 回归 方程 预测 出 来 的 值 可 能 偏离 5% 。 


谈判 要 求 加 薪 的 人 的 加 薪 结 果 


标准 偏 委 这 种 
度量 方 六 描述 
的 是 一 个 变量 ， 


让 际 加 苗 煞 频 


标准 偏 关 描述 的 是 平 
场 值 周转 的 分 布 情况 ， 


雹 方 报 训 夫 找 这 应 县 加 
邓 棋 周 思 论 和 市 情况 


协 方 覃 哥 间 指 
只 动人 次 痢 六 
阅 的 甘 条 ， 


既然 如 此 ， 如 何 计算 均 方 根 误差 呢 ? 


R 模 型 知道 存在 均 方 根 误差 


在 上 一 章 中 ， 你 在 R 中 创建 了 线性 模型 对 象 ， 这 个 对 象 并 非 只 知道 Y 轴 截 
距 和 回归 线 的 斜率 。 

它 有 一 个 连接 模型 中 的 各 种 统计 值 的 句柄 ， 均 方 根 误差 也 在 其 中 。 如 果 
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阁 越 模型 耻 千 


化 加 
R 的 内 部 使 用 下 面 这 个 公式 计算 均 方 根 误差 : 


Gy * Vl-r2 
世上 没有 傻 问 题 
问 : 我 需要 把 这 个 公式 背 下 来 吗 ? 


管 : 很 快 你 就 会 看 到 ， 用 R 或 者 其 他 统计 软件 计算 均 方 根 非常 方便 ， 重 
要 的 是 ， 你 要 知道 误差 是 可 以 定量 描述 、 定 量 使 用 的 ， 还 有 ， 要 能 够 描 


述 预测 结果 中 包含 的 误差 。 

问 : 所 有 的 回归 方程 都 用 这 个 公式 描述 误差 吗 ? 

管 : 非 线 性 回归 或 多 元 回归 将 使 用 其 他 公式 确定 误差 。 实 际 上 ， 即 使 是 
线性 回归 ， 也 不 止 均 方 根 这 一 种 描述 偏差 的 方法 。 量 度 误差 的 方法 应 有 
尽 有 ， 有 具体 取决 于 特定 情况 。 

一 试 身手 

证 我 们 用 R 代 替代 数 方程 来 计算 均 方 根 误差 。 

输入 下 面 的 指令 ， 看 一 看 R 对 模型 的 汇总 : 


summary (myLm) 


均 方 根 误差 将 会 出 现在 输出 结 采 中 ,但 也 可 以 输入 下 面 这 个 指令 查看 均 
方 根 误差 : 


这 六 拉 译 夫 丈 审 
fe 
1 | A 


人 下 一 -一 人 
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接 下 来 ， 用 闫 色 画 出 整 条 回归 线 周围 的 误差 区 间 ， 显 示 出 均 方 根 误差 。 


误差 区 间 应 该 沿 着 回归 线 分 布 ， 回 归 线 上 、 下 的 误差 区 间 宽 度 应 该 等 于 
同一 个 均 方 根 误差 。 


加 薪 痪 判 结果 


R 的 线性 模型 汇总 展示 了 均 方 根 误差 
只 要 你 要 求 R 汇 总 线性 模型 对 象 ， 它 就 会 给 出 一 大 堆 有 关 对 象 实质 的 信 
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必 划 在 回归 线 土 2.33 的 范 费 前 
两 一 不 区 网 ， 阁 东 就 是 这 样 。 


\ 


你 不 仅 能 看 到 和 上 一 章 一 样 的 回归 系数 ， 还 能 看 到 均 方 根 误差 和 大 量 其 
他 体现 模型 特征 的 统计 值 。 


动 动笔 
你 即将 重新 处 理 你 创建 的 薪资 算法 。 能 更 细致 地 描述 机 会 误差 吗 ? 
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加 新 计算 凑 


扫 出 蘑 种 加 于 要 水 后 多 得 到 什么 结果 呢 ? 
用 下 面 这 个 方程 求 出 答案 


可 以 油 除 注 个 说法 ， 


共 中 x 是 要 求 额 度 ，y 是 预期 导 到 的 客座 . 
但 这 个 公 忠 只 在 加 血 要 求 【x) 介 于 0% 到 
在 这 里 为 加 薪 计 算 22% 之 间 时 有 效 ， 
器 如 入 新 说 这 。 人 现 = 


3 利明 坎 方 披 谍 六 
ianif. : : 
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Residual standard error':(2.298 
Multiple R-squared: 0.4431， Ad 


动 动笔 解答 
让 我 们 看 看 以 回归 线 的 均 方 根 误差 结束 的 新 算法 。 


= 
加 装 计 算 帮 


井 吕 其 御 曾 次 园 求 廊 全 彻 到 什么 负 米 园 ? 这 县 党 的 新 说 法， 其 中 
用 下 面 访 个 态 积 求 川 答 窟 : 移入 了 区 六 融 谋 莱 ， 


议和 颂 话 等 诉 寥 卢 亿 条 其 中 x 喇 畦 求 弥 度 ，y 二 办 期 福 到 的 饶 度 。 


唐 避 期 竺 抱 加 英 范 轩 ， 人 有 {x 逢 十 0 多 蚤 


太吉 名 {名 并 玉 全 名; :六 革 隐 要 可 
各 于 浇 信 了 本 汉 续 林 2 2 钨 让 必 内 


就 是 说 要 是 我 要 求 7 ， 将 会 得 到 
4.5 一 9,5%? 体 要 是 想 社 我 好 将 匠 
你 胸 ， 就 得 再 说 清楚 一 些 ， 和 拜托 你 
拾 我 一 个 误 玉 小 点 疙 网 预测 ， 行 条? 


她 说 得 有 道理 。 
能 不 能 想 办 法 让 这 个 回归 预测 用 处 更 大 呢 ? 能 不 能 检查 一 下 数据 ， 看 看 


是 否 能 减 小 误差 ? 


练习 


将 散 扣 图 分 割 成 不 同 取 值 区 间 进 行 观察 。 在 回归 线 的 不 同 区 间 内 ， 
均 方 根 误差 是 否 有 差异 ? 


针对 散 点 图 上 的 每 个 取 值 区 间 ， 用 基色 涂 出 误差 所 在 的 区 间 。 


加 薪 谈 判 结果 


已经 在 这 里 名 你 取 
了 一 个 取 值 区 阅 . 


发 现 哪 些 取 值 段 的 残 差 有 显著 不 同 吗 ? 
oa 习 解 管 
你 已 经 观察 过 每 个 取 值 区 间 的 均 方 根 误差 。 发 现 什 么 了 ? 


加 薪 谈 判 关 采 


一 这 册 的 课 关 高 得 风 。 
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为 什么 右 侧 的 误差 更 高 ? 
观察 数据 ， 想 一 想 数 据 的 确切 意义 。 


吉姆 : 老兄 啊 ， 简 直 疯 了 ! 似乎 散 点 图 上 的 每 个 取 值 区 间 的 预测 分 
布 都 不 一 样 ! 


乔 : 是 啊 ， 真 是 决 了 ， 真 的 。 我 们 完 竟 应 该 怎么 向 客户 解释 呢 ? 


吉姆 客户 是 不 会 为 这 种 预测 付 钱 的 。 要 是 我 们 对 客户 说 , “要求 加 
薪 7% 一 8% 时 ， 误 差 看 起 来 相对 较 低 ， 但 要 求 加 薪 10% 一 11% 时 ， 误 
差 就 一 飞 冲 天 了 ”一 一 客户 是 不 会 理解 的 。 


弗兰克 : 喂 ， 放 松 点 ， 兄 弟 们 。 也 许 我 们 该 想 想 各 个 误差 区 间 为 什 
么 会 是 这 模样 ， 这 也 许 能 帮助 我 们 理解 所 有 这 些 区 间 的 加 薪 现 象 。 


吉姆 : [嘲笑 状 | 你 又 在 思 前 想 后 了 3 
弗兰克 : 听 ， 我 们 是 分 析 师 嘛 ， 对 不 对 ? 


乔 : 行 ， 让 我 们 看 看 人 们 提出 的 要 求 。 在 坐标 起 始 处 ， 有 一 片 颇 为 
不 小 的 数据 ， 一 冲 到 5% 左 右 就 收 罕 了 。 


吉姆 : 对 ， 而 且 在 这 一 片 数据 中 只 有 三 个 人 提出 的 加 薪 要 求 低 于 
5%， 因 此 我 们 也 许 不 应 该 对 4%~59% 区 间 内 的 误差 过 于 相信 。 


弗兰克 :， 说 得 好 ! 那么 现在 让 我 们 看 看 从 5% 直 到 10% 的 区 间 ， 这 一 
带 误差 最 小 。 


乔 : 咽 ， 人 们 对 自己 的 要 求 持 保 守 态 度 ， 而 他 们 的 老板 呢 ， 也 相应 
地 持 保 守 态 度 。 


弗兰克 : 然后 ， 当 跨 过 10%...... 


吉姆 : 后果 难 料 啊 ， 想 想 吧 ，15% 可 谓 大 幅度 加 新， 我 看 一 般 大 家 
没有 胆量 提出 这 种 要 求 。 谁 知道 老板 会 有 什么 反应 ? 


弗兰克 : 有 意思 的 假设 。 你 的 老板 可 能 会 因为 你 的 大 胆 而 奖赏 你 ， 
也 可 能 会 因为 你 的 冒失 而 给 你 点 颜色 看 看 。 


吉姆 : 一旦 你 狮子 大 开口 ， 任 何事 都 有 可 能 发 生 。 


乔 :知道 吗 ， 兄 弟 们 ， 我 认为 我 们 的 数据 里 包含 两 类 人 。 说 确切 一 
点 就 是 ， 我 认为 我 们 应 该 有 两 种 模型 。 


要 是 把 数据 拆 开 ， 分 析 结 果 会 怎么 样 呢 ? 


分 割 的 根本 目的 是 管理 误差 


将 数据 分 拆 为 几 个 组 称 为 分 割 。 如 果 为 几 个 分 组 分 别 创建 预测 模型 比 
单独 使 用 一 个 模型 更 能 减 小 疼 索 ， 则 应 进行 分 割 。 


在 单独 使 用 一 个 模型 时 ， 要 求 加 菏 10% (或 以 下 ) 的 人 的 估计 误差 太 高 
， 而 要 求 加 薪 10% 以 上 的 人 的 估计 误差 则 太 低 ! 


这 个 估计 课 差 太 低 . 
观察 取 值 区 间 可 以 看 出 ， 两 个 分 区 内 的 误差 提 然 不 同 。 实 际 上 ， 将 数 
据 分 割 为 两 个 分 组 ， 并 为 每 个 分 组 建立 一 个 模型 ， 将 能 对 数据 分 布 情 
况 给 出 更 切合 实际 的 解释 。 
将 数据 分 割 为 两 个 分 组 后 ， 统 计 结 果 更 敏感 ， 更 能 体现 各 个 分 区 内 的 
情况 ， 从 而 有 助 于 管理 误差 。 


加 薪 谈 判 结果 


和 


enw Rem Wh 
J 
WO 5 
ye 


Be 
» 


这 些 误 差 知 人 缠 
本 切合 实际 . 


动 动笔 
如 有 果 把 要 求 加 薪 10% 以 下 和 要 求 加 薪 10% 以 上 的 人 员 数 据 分 开 ， 两 
条 回归 线 很 可 能 具有 不 同 的 外 观 。 


这 就 是 分 开 后 的 数据 。 想 象 一 下 两 组 数据 的 回归 线 的 形状 ， 把 它 
们 画 出 来 。 


加 笑 庶 判 结 果 


1 
撤 示 : 老 侧 盟 点 禄 
烘 、 设 可 疾 一 -只 村 
尽 如 个 计 回 量 线 芭 
位 置 ， 


于 水 省 听 


} 
所 位 : 回归 找 基 与 竺 圭 值 图 带 ps 
滞 售 程度 景 高 竟 绕 系 . 2 


动 动笔 解答 


ee 它们 外 观 
[0 人体 |: 


这 条 同 叶 穿 提出 仙 低 吉英 要 囊 的 人 群 ， 
与 数据 欣 生 合 程度 高 于 原来 的 寞 型 。 


加 新 谱 判 结果 


这 条 钱 贡 穿 提 出 歌 地 加 

薪 杰 者 的 恋 判 人 群 ， 鱼 

PR 产 与 另 一 条 找 世 一样。 
€ J/ 


丙 条 加 要 线 ? 啊 ? 怎 在 
处 彰 个 20 条 呢 ? 我 能 为 每 个 
取 值 区 同 单独 画 一 条 回 晤 

禾 …… 你 看 几何 ? 1 ? 


考 考 你 


是 个 好 主意 。 为 什么 画 两 条 就 打住 呢 ? 画 更 多 线 一 一 多 得 多 ， 会 不 会 
让 模型 更 有 作用 呢 ? 


优秀 的 回归 分 析 兼 具 解释 功能 和 预测 功能 


将 加 薪 分 析 图 形 分 为 两 个 分 区 既 能 让 分 析 结 果 与 数据 更 吻合 ， 又 能 避 
2 


你 的 分 析 应 处 于 中 央 某 个 位置 , 


世上 没有 傻 问题 
问 : ”为 什么 只 把 数据 分 成 两 组 就 打住 呢 ? 为 什么 不 分 成 五 组 ? 
管 : 要 是 你 有 很 好 的 理由 需要 那么 做 ， 请 动手 。 


问 : ”我 可 以 发 疯 般 地 把 数据 分 成 3000 组 ， 让 分 区 正好 等 于 数据 点 的 个 


管 : 当然 可 以 。 要 是 真 这 么 做 的 话 ， 你 认为 3000 条 回归 线 对 于 预测 人 
们 的 加 薪 幅 度 有 何 奇 效 ? 


管 : 要 是 真 这 么 做 ， 你 可 以 解释 一 切 。 所 有 的 数据 点 都 有 来 历 ， 所 有 
回归 线 的 均 方 根 误差 都 为 零 。 可 是 ， 这 些 模型 的 预测 功能 将 起 失 殖 


~ 


问 :那么 ， 有 一 大 堆 预 测 切 能 而 没有 太 多 解释 功能 的 分 析 模型 又 是 一 
副 什么 样子 ? 


管 : 和 你 的 第 一 个 模型 有 些 像 。 比 如 说 这 样 一 个 模型 ， 不 管 提 出 什么 
加 薪 要 求 ， 都 会 得 到 -1000% 到 1000% 之 间 的 加 薪 结 


间 : 听 起 来 真 傻 。 
答 : 当然 ， 但 这 个 模型 所 具有 的 预测 功能 不 可 思议 。 很 可 能 你 所 接待 
的 任何 人 都 不 会 超出 这 个 范围 ， 但 这 个 模型 什么 也 不 能 解释 。 这样 的 
模型 是 以 解释 功能 换取 预测 功能 。 

间 : 所 以 说 零 误差 似乎 就 是 ， 没 有 任何 预测 能 力 。 
管 : 正 是 ! 你 的 分 析 应 该 介 于 具有 完全 解释 功能 和 具有 完全 预测 功能 
之 间 ， 具 体位 于 这 两 个 极限 位 置 之 间 的 哪个 位 置 取决 于 你 一 分 析 师 
的 最 佳 判断 。 你 的 客户 需要 什么 样 的 模型 ? 

动 动笔 

分 别 将 这 两 个 模型 的 均 方 根 误差 区 域 涂 上 颜色 。 


用 额 色 区 城 刘 示意 个 
撞 划 网 继 意 分布， 一 、 


相 比 原来 的 模型 ， 分 区 模型 能 更 好 地 处 理 误 差 


这 两 个 模型 更 好 地 揪 述 了 人 们 提出 加 新 要 求 后 得 到 的 实际 加 新 ， 因 而 
功能 更 强大 。 


”加 新 谈 判 结果 


\ 
胆 小 读 判 者 


胆 小 谈 判 者 的 新 模型 与 数据 重合 得 更 好 。 
回归 线 的 斜率 更 靠 谱 ， 均 方 根 误差 更 低 。 
激进 谈判 者 的 新 模型 与 数据 也 重合 得 更 好 。 


回归 线 的 斜率 更 靠 谱 ， 均 方 根 误差 更 高 ， 这 更 好 地 体现 了 人 们 提出 高 
于 10% 的 要 求 后 得 到 的 结 


让 我 们 在 R 里 实现 这 些 模 型 ..… 
“外 习 


现在 是 时 候 在 R 里 实现 这 些 新 模型 了 。 只 要 创建 了 模型 ， 就 能 通过 
系数 调整 加 薪 预 测算 法 。 


令 行 ， 创 建 与 两 个 分 区 相对 应 的 新 的 线性 模型 对 


该 二 \ 伏 机 自诉 信 仅 详 FF 注 对 据 诺 


~ 
中 Sp 过 加 薪 助 人 购 数 锯 … 


ps 


( 


myLBiy <- lalreaaiverdlneoottated==TRIUE & racuestead > 工人 | 
redquzosted[lnoyosiazecd--1RUL & <cequcsezed > 101， 


taecrploy 


mYi THTa < n(reseived "egot aced-—-TRI $s “ecuvesed <- 10]~ 
reducosted[lneyos ca==taU foamueased =e 10 3 


:t=a 人 rE: J ) / 
a 


并 以 10 络 芒 分 市 办 到 来 沪 齐 数 祷 , 一 一 一 一 一 


使 用 下 面 这 些 版 本 的 summaryO 图 数 查 看 两 个 线性 模型 对 象 的 汇总 
结 朱 ， 解 释 这 些 指令 ， 说 说 每 条 指令 完成 的 工作 : 


summary (myLmSmal1)SccefficientSs 
summary (myLmSmal1)Ssigma 
ummary (myLmBig) Scoefficients 


summary (myLmBig) $sigma 

这 些 千 杂 会 让 你 

的 次 法 更 有 斤 ， 

练习 解答 

你 刚才 用 两 个 新 的 回归 方程 计算 了 分 区 数据 。 发 现 什 么 了 ? 


当 你 告诉 只 例 奸 新 祝 型 烛 后 各 趣 一 


对， 内 承 在 净 台 显示 伺 一 片 某 尼 ! » 
何 信息 ， ) | 


< me ~ 

> myLmBig <- LImCrecetved[negotiated<TRUE & requested > 20]~ requested[negotiatede=TRUE & 
requcsted > 10], dato~cmployees) 

> mylmSmoall <- 1m(Creceived[negoticted 一 TRUE & requested <= 10]~requested[negotinoted==TRIE $B 
requested <= 10],data-employees) 

> SummryCmyLmSmail )Scoofficients 


Estimate Std, Error value Pr(>iti) 
CIntercept) @.7933468 0.22472009 3.530378 4.3781560-84 
requested[negotiated ~= TRUE & requested < 10] 9.9424946 9.63151835 29.903041 6.588020e-134 


Estirate Std, Error & volue 
CIntercept) 7.8134033 
requested[negotiated 一 TRUE &\requested > 10] 9.3026890 
> SumrmoryKmyLnaig)5sigmo 
Ti] 4,544424 


> 


PrC>1tl) 
-8760371 4.164845 4.997597e-@5 
.1420151 2.130824 3.457618e-82 


设 是 新 轩 归 纺 


、 这 是 新 模型 葛 坊 pp 


而 根 证 和 
动 动笔 
现在 ， 你 已 经 万 事 俱 备 ， 束 等 创建 一 个 更 强大 的 算法 帮助 客户 了 
解 提出 任何 加 薪 要 求 后 所 能 期 得 的 结果 。 让 我 们 痉 旧 迎新 ， 把 分 
析出 来 的 一 切 信 息 都 用 上 。 


使 用 新 模型 的 斜率 和 帘 距 ， 写 出 描述 这 两 个 新 模型 的 方程 式 。 


别 忘 记 吉 名 处 畦 茵 ， 
和 


RA 此 ”考点 翅 方 
恨 江 折合 月 多 卉 型 ， 信 匆 客户 化 训 期 晓 实 江 加 蕉 与 牟 场 加 奔 专 针 接 并 ” 概 撤 关 


加 莫 计 算 世 
ee 


提出 某 补 加 冰 溉 求 后 沈 神 间 慎 惫 结 么 蜂 
用 下 他 这 合 方 旺 求 出 符 案 | 


管 党 将 全 点 苔 
你 网 新 其 该. 


动 动笔 解答 
最 终 的 加 薪 算 法 是 什么 样子 ? 


En 


加 蘑 计 算 幽 


提出 某 种 加 菏 要 求 后 会 得 到 什么 错 果 呢 ? 
假如 x 是 要 求 额 诬 ，Y 是 预期 笋 到 的 颌 度 ， 


这 要 筑 加 妆 楼 如 果 要 求 加 匣 优 于 10 吕 ， 风 使 用 以 下 公式 ; 


用 基数 来 宽 善 


人 各 个 方程。 
eg y=0.8+0.9x ee 
你 得 到 的 加 太 将 会 是 预测 加 苏 的 二 4%。 
如 果 要 求 加 路 等 干 或 商 于 10 然 ， 则 策 用 避 
| 下 公式 ， 


这 是 高 加 萧 受 
脱 蚂 措 型 ， 


你 得 到 的 加 闸 将 会 是 预测 加 匣 的 土 4.5%, 
”一 
注 


这 是 在 警告 害 户 W-n， 示 要 进行 站 括 | 


你 的 客户 纷纷 回头 


新 算法 确实 开始 奏效 ， 人 人 都 为 此 激动 不 已 。 


现在 ， 大 家 可 以 决定 ， 是 要 冒 着 高 风险 狮子 大 开口 ， 还 是 宁可 降低 要 
求 ; 图 个 安稳 


求 女 稳 的 人 心 想 事 成 ， 而 个 惯 风险 的 人 也 能 理解 他 们 为 什么 会 有 这 种 


- 品 


12 关系 数据 库 
你 能 关联 吗 ? 


只 有 有 一 个 我 ， 却 有 有 这 人 么 旬 


如 何 组 织 变 化 多 端的 多 变量 数据 ? 


一 张 电 子 数据 表 只 有 两 维 数 据 : 行 和 列 。 如 琳 你 的 数据 包括 许多 方 
面 ， 则 表格 格式 很 快 就 会 过 时 。 在 本 章 ， 你 会 看 出 电子 表格 很 难 管理 
多 变量 数据 ， 还 能 看 到 关系 数据 库 管理 系统 让 多 变量 数据 的 存储 和 检 
索 变 得 极其 簿 单 。 


《数据 邦 新 闻 》 和 希望 分 析 销 量 


《数据 邦 新 闻 》 是 时 下 盛行 的 一 份 新 闻 类 杂志 ， 许 多 居民 都 看 这 份 杂 
志 。《 数 据 邦 新 闻 》 给 你 出 了 一 个 非常 特别 的 题目 :他们 想 把 每 期 杂 
0 
取 1 儿 绕 里 。 


他 们 希望 每 一 期 杂志 都 能 尽量 经 济 有 效 ， 要 是 每 一 期 杂志 刊登 一 百 篇 
文章 比 刊登 五 十 篇 文章 带 来 的 销量 并 无 提高 ， 那 他 们 就 不 刊登 这 人 么 
多 ; 另 一 方面 ， 要 是 刊登 五 十 篇 文章 比 刊登 十 篇 文章 能 带 来 更 大 销 
量 ， 那 他 们 就 会 刊登 五 十 篇 文章 。 


Eauation? 、 Software 
i the Deve lanaen 
nnovalive hnok P nl low a vhfeborrd ciauld 


uve yaur TXT Teolczl 


Databases 


Nesvly published 
faBles reveal 
supilsie mew 
CRnnections 


pw A ri 


十 你 能 给 他们 全 而 分 析 这 文 些 变量 ， 他 们 将 免费 为 你 的 数据 分 析 业 务 
做 一 年 的 广告 


这 是 他 们 保存 的 运营 跟踪 数据 


《新 闻 》 给 你 送 来 了 他 们 的 经 营 数 据 ， 是 四 张 独 立 的 电子 表格 文件 。 
2 联系 ， 为 了 进行 分 析 ， 你 需要 和 弄 清 楚 具 体 有 
有 


前 来 他 们 在 对 社 率 


三 章 料 先行 根 荚 ， 
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动 动脑 
为 了 对 比 文章 和 销量 的 关系 ， 需 要 知道 些 什么 ? 
你 需要 知道 数据 表 之 间 的 相互 关系 


为 了 得 到 《新 闻 》 想 得 到 的 答案 ， 你 创建 表格 ， 据 此 将 文章 数目 和 销 
量 联 系 起 来 。 


因此 你 需要 知道 这 些 表格 如 何 相互 关联 。 是 哪些 特定 数据 域 将 这 些 表 
格 联系 起 来 的 ? 另外 ， 这 些 关 系 有 何 意 义 ? 


这 是 名 新 闻 》 关于 大 体 
推 护 数 据 购 说 法 ， 


| 


] 
] 
| 


] 
| 


] 


安 件 人 人 ， 数 据 邦 新 闻 
玉生 人 Head First 
和 主语。 关于 我 们 的 数据 


证 这样， 每 一 期 条 起 都 刊 阁 大 量 交 章 ， 组 入 
文章 都 青 一 位 作者 ， 因 此 亦 数据 由， 我 们 好 放 
生 和 文章 联系 起 米 。 当 我 们 编辑 好 一 央 罗 二 
邱 ， 就 会 给 所 有 的 批发 商 打 电 话 。 他 们 订 三 外 
一 齐 杂 志 ， 我 们 将 订购 记录 放 往 销售 表 里 。 信 
了 革 的 吉 情 富有 有 一 项“ 乔 虽 ， ! 纪录 的 时 我 们 
舍 凡 的 傈 志 的 份 数 ， 通 常 以 100 为 一 个 单 位， 
亿 有 时 候 也 卖 得 少 点 。 这 些 信息 有 硕 动 吗 ? 


一 一 数 税 孝 新 闻 


他 们 要 记录 水量 资料 ， 田 此 
宫 要 这 许 妆 上台 据 表 ， 


动 动笔 
用 箭头 和 文字 说 明 每 张 数 据 表 中 记录 的 数据 之 间 的 关系 。 


人 


EETEE 


1 
1 
1 
1 
1 
1 
1 
2 
2 
去 
2 
2 
3 
让 
3 
3 
EE 
3 
二 
要 
* 
. 
过 
. 


6 Niko Chrisisn 
7 Nicole Fry 


GB Desty Adams 
9 Rafeela Corinz 


全 
1 
2 
3 
中 
5 
5 
多 
事 
9 
0 
让 


"A 


在 表格 之 间 画 上 得 亲 , 说明 一 一 一 一 


它们 所 盏 之 同 胸 关 承 . 
动 动笔 解答 
你 发 现 《 数 据 邦 新 闻 》 保 存 的 数据 表 之 间 有 何 关系 ? 


每 一 筷 销 重 描 的 是 一 期 杂志 前 一 栅 
序 刷 品 (通常 物 100 丛 ). 


109 
109 
109 
100 
109 
309 
300 
to 
:0 
10 
we 
1c0 
1 
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人 


销量 


备 一 期 都 刊登 
一 枇 文 章 ， 


919 
4 
a 
3 
30 
1a 
2 
S16 
2 
zp? 
3 
002 
09 
Ee 
S033 
9 
335 
Io 
236) 
« 
2 
| 
y 


每 一 位 作者 写 
一 被 文章 . 


数据 库 就 是 一 系列 相互 有 特定 关系 的 数据 
一 个 数据 库 就 是 一 张 表格 或 一 组 表格 ， 表 格 以 某 种 方式 对 数据 进 


一 个 


林 昌 
理 ， 使 数据 之 间 的 相互 天 系 显而易见 ; 数据 库 软 件 则 对 表格 进行 管 


理 。 可 供 选 择 的 数据 库 软件 很 多 。 


重要 的 是 要 了 解 附 件 中 要 记录 的 那些 数据 之 间 的 关系 。 


这 是 个 浊 题 ， 


|、 那么 ， 如 何 使 用 这 方面 的 知识 来 
计算 每 一 期 文章 数目 和 总 销量 ? 


ee 


如 打手 头 有 一 些 相互 独立 的 表格 ， 但 这 些 表 格 中 的 数据 互 有 关系 ， 同 
时 又 有 一 个 关系 到 多 张 表格 的 问题 需要 解答 ， 那 么 ， 束 需要 党 着 相互 
关联 的 表格 顺藤摸瓜 。 


流 个 盘 桶 来 现 怠 于 你 比 葵 


丈 章 献 习 和 销 童 . 


3 


| 
沉重 将 沪 幸 表 接 
腾 合 起 未 ， 


创建 一 份 穿 过 这 条 路 径 的 电子 表格 


一 旦 知道 目 己 需要 哪 几 个 表格 ， 就 可 以 制定 一 个 计划 ， 将 数据 与 公式 
关联 起 来 。 


在 本 例 中 ， 你 需要 有 一 份 能 对 每 期 文章 数目 和 销量 进行 比较 的 表格 。 
你 将 需要 写 出 公式 ， 以 便 计算 需要 计算 的 数值 。 


下 一 个 乡 习 中 ， 人 条 


| eh 


你 将 需要 用 公共 HA 
计算 这 些 数值 
练习 


让 我 们 创建 一 个 电子 表格 ， 像 对 开 页 上 的 一 样 ， 然 后 首先 计算 每 
一 期 《新 闻 》 的 “文章 数目 ”。 


打开 “hfda_ch12_issues.csv ”文件 ， 保 存 一 份 副本 ， 以 便 工 
作 。 记 住 ， 可 别 把 原始 文件 搞 乱 了 1! 将 新 文件 取 名 为 “dispatch 
analysis.xls” ° 
用 新 名 宗保 让 这 个 文件 ， 
/ 以 克 柄 坛 语 申 雪 据 . 


本 
站 _ 快 当下 载 Re 


Wwwy. hoadftirstiabs.com pooks fda 
hiada_chi12 issues,csy 


wrww.headiirstlabs.conmybookshftdar 
hfda chi2 articles.csy 


hfda chi2 iSS5UeS.CSV ispatch analysis. x{s 


打开 “hfda_ ch12_articles.csv ”， 右 击 表 格 底部 带 有 文件 名 的 
人 。 命 令 电子 表格 程序 将 文件 转移 到 “dispatch analysis.xls ” 文 


将 文章 数据 大 桔 
复制 到 新 文件 中 . 


a 


Ce) 


在 期 刊 数据 表 中 创建 文章 数目 列 ， 填 入 COUNTIF 公 式 计 算 该 
期 刊 的 文章 数目 ， 然 后 对 每 一 期 刊物 复制 和 粘贴 该 公式 。 


将 COUNTIF 公 名 
填 等 在 这 里 。 


oa 避 解 答 
你 发 现 每 一 期 刊物 的 文章 数目 情况 如 何 ? 


打开 “hfda_ch12_issues.csv ”文件 ， 保 存 一 份 副本 ， 以 便 工 
作 。 记 住 ， 可 别 把 原始 文件 搞 乱 了 1! 将 新 文件 取 名 为 “dispatch 


analysis.xls” ° 


打开 “hfda_ch12_articles.csv”， 右 击 表 格 底部 带 有 文件 名 的 
。 命 令 电子 表格 程序 将 文件 转移 到 “dispatch analysis.xls ” 文 


在 期 刊 数据 表 中 创建 article count (文章 数目 ) 列 ， 填 
入 “COUNTIF” 公 式 计算 该 期 刊 的 文章 数目 ， 然 后 对 每 一 期 刊物 复 


制 和 粘贴 该 公式 。 


这 公公 售 读 职 电 马 志 格 中 移 
articls2 (去 漠 】 选 项 卡 . 


OWN TPE Mi chea_arbnlar eof, Bences_ sa 计算 往 一 般 利 总 出 现在 
式 章 列 点 中 网 次数 。 


HHONPNWwr 


1 1 
2 1 
3 1 
4 1 
5 上 
5 1 
7 1 
轩 2 
3 2 
10 2 
i1 2 
22 2 
53 3 
16 3 
35 3 
16 3 
27 3 
3 3 


到 世 新 闻 务 安 析 电 敬 表 桥 宁 蕴 
wetictun 【去 圭 ) 估 项 下 


蔡 ! 站 特 者 重 雏 据 添 加 划 电 可 表格 中 时 ， 记 佳 ， 送 贞 数 过 
吕 是 代表 天 启 计 鼓 ， 示 代表 金 疾 ， 狼 只 要 玉 你 按 杂 志 信 款 
计 著 炳 曙 ， 不 需要 接 全 粳 计 站， 


这 是 # 新 闻 》 总 纺 。 


听 上 去 不 错 ..……… 让 我 们 将 销量 添加 到 列表 中 ! 
练习 
在 所 创建 的 电子 表格 中 添加 一 个 总 销量 域 。 
十“ 快 来 下 载 ! 米 
A 
hfda_ch12_sales.csv 
复制 hfda_ch12_sales.csv 文件 ， 使 其 成 为 dispatch analysis.xls 


中 的 一 个 新 选项 卡 。 在 用 于 计算 文章 数目 的 同一 个 工作 表 中 ， 新 
建 一 个 Sales (销量 ) 列 。 


8 Cc 
PubDate Article Count Sales 


1 10/24/04 Fr 

2 11/8/04 5 从 
3 11/23/04 7 

4 12/8/04 yi 
5 12/23/04 有 

6 1/7/05 


使 用 SUMIF 公 式 计算 期 刊 ID1 (issueID 1) 的 销量 数据 ， 将 公 
式 填写 在 单元 格 C2 中 。 复 制 该 公式 ， 为 其 余 每 一 期 刊物 粘贴 该 公 
式 。 


练习 解答 
你 用 了 哪个 公式 将 销量 深 加 人 到 电子 表格 中 ? 


斌 公 襄 囊 吧 期 利 SOONIT 公 贡 风 第 一 个 自 灾 重读 到 期 刊 。 
了 2227 俯 . 人 


NTT hire_sal oviiB GB, ea._ ohioep er fA, Ri 


PubDote 
1 10/24/04 
11/8/0¢ 
/123/04 
2/9/0¢ 
1223/04 
A7105 


1122/05 
05 
2121/05 
V8/05 
3/23/05 
/7105 
/122/05 
5/7/05 
/22/05 


6/6/05 
6/21/05 


TL RT 


Artide count Sales 


issueID 


DON wN 


ONmNONDONWmNYN NNmY NY 


i 


第 二 个 自 灾 王 该 取 你 希望 计算 
让 销量 的 特定 期 刊 . 


路 世 个 龟 灾 量 指 宙 往 雪 电 
汇 蕊 网 实际 销量 - 


通过 汇总 将 文章 数目 和 销量 关联 起 来 


这 束 是 你 需要 的 电子 表格 
目 与 期 刊 销量 之 间 的 关系 。 


可 以 表明 《新 闻 》 每 一 期 刊登 的 文章 数 


村 十 持 汪 时 


名 


生生 本 本 交加 和 
上 


#53 


前 虐 上 去 报 好 .共和 过 要 是 画 成 苯 点 
加 会 更 容 名 理解 一 点 ， 广 御 说 过 
毅 出 国 吗 ? 


和 本 


> 
旺 


上 


当然 ! 让 我 们 给 他 来 一 张 …... 
动 动笔 
这 个 画 数 告诉 你 灭 的 工作 目 


录 ， 即 查找 文件 的 地 方 ， 


> getwd() 
[1] "Users/headfirst" 


> 


在 RR 的 工作 目录 下 将 电子 表 桔 
数据 文件 保存 为 Csma 文 件 ， 


打开 R， 输 入 getwd() 指 令 ， 求 出 R 保 存 数据 的 位 置 。 然 后 ， 在 
电子 表格 中 找到 “File > Save As...”(“ 文 件 > 另存 为 ..….….. 2 
目录 下 将 该 数据 保存 为 CSV 文 件 。 
执行 下 列 指 令 ， 将 数据 加 载 到 R 中 : 


dispatch <- read.csv{"dispatch analysls.csv", 


header=TRUE) 
将 文 人 从 4 为 “dispatch anatysis .csy ¥ 


加 载 数据 后 ， 执 行 下 列 画 数 ， 看 到 一 个 优化 值 了 吗 ? 


Plot {Sales~jitter (Article.count),data=dispatch) 


入、  _ 根 快 你 就 会 看 到 


jitter 的 作用 -…… 
动 动笔 解答 
你 在 所 加 载 的 数据 中 找到 最 优 值 了 吗 ? 


使 用 这 个 的 褒 捍 你 睛 2BD 支 件 如 载 到 天 时 。 heaqd 指 各 时 未 品 则 二 加 总 的 
者 穿 …… 检 查 一 下 总 系 会 尾 . 


5 dispatch <- read.csY(C"dispatch anotysis,csv'iheader=TRUE) 
> head(dispatch) 
issueID PubDate Article.count Sales 
1 10/24/@4 7 2227 


2 11/8/64 5 703 

3 11/23/@4 7 2252 

4 12/8/04 7 2188 

5 12/23/04 8 2894 

6 1/7/05 7 2006 
plot(Sales~jitter(CArticle.count), data~dispatch) 


: | 
oe _PEr 指 寺 注 数 密 中 应 各 了 一 起 归 埋 ， 使 数 
- 禄 相 朗 亢 靖 。 以 便 易 于 吝 骨 各 图 上 识别 ， 
砍 体 plot 公 式 中 网 元 名 与 heag 
广 一 议 ， 系 全 加 jw 进行 直 同 的 指 总数 据 诚 中 你 示 曲 域 名 一 致 。 
辕 ， 颖 果 是 于 是 祖 准 看 王 向 ? 


叶 部 傅 拱 下 村 条 英文 妾 磊 守 ， 
1 


天 革 二 竹 且 证 而 50 沾 这 辣 ， 
/ 二 加 分 雪 抽 可 由 七 宫 入 上 半天 了 . 
' 


入 、 尖 雪 及 包 识 过 15 填 者 系 已 无 贫 并 训 请 重 ， 促 
\ 了 报章 党 -10R 全 尘 化 铺 量 ， 他- 七， 时 所 
新 闻 5 这 章 掉 刊 旺 70 基 空 疡 涉 立 才 - 


沁 | 中 侯 丰 区 # 基 站 垃 导 ， 沪 守 浅 
了 1200 ， 矶 僻 京 一 类 上 二 广 ， 


他 理 车 热情 | 
| 


世上 没有 僚 问 题 


问 : 人 们 确实 会 像 这 样 把 数据 存储 在 相互 关联 的 电子 表格 中 吗 ? 


管 : 确实 如 此 。 有 时 候 你 的 数据 是 从 更 大 的 数据 库 中 节选 的 ， 有 时 则 
古人 们 像 上 文 那样 手工 关联 在 一 起 的 。 


间 : 基本 上 ， 只 要 公式 能 够 读 取代 码 ， 就 有 可 能 通过 电子 表格 把 各 种 
数据 联系 起 来 ， 只 是 繁琐 一 点 。 

答 :， 喝 ， 多 个 数据 表 中 得 到 数据 ， 并 
且 这 些 数据 通过 精巧 的 程序 代码 相互 关联 。 通 常 得 到 的 数据 比较 混 
乱 ， 为 了 让 电子 表格 和 公式 同时 生效 ， 需 要 做 一 些 数据 清理 工作 。 下 
一 章 将 更 详细 地 介绍 这 方面 的 内 容 。 

问 ， 有 没有 能 把 来 自 不 同 表格 的 数据 关联 在 一 起 的 更 好 的 软件 构造 ? 
答 : 你 认为 有 ， 对 吗 ? 


复制 并 粘贴 所 有 这 些 数据 是 件 痛苦 的 事 


NS 是 每 


每 次 有 人 查询 数据 〈“ 即 提出 关于 数据 的 问题 ) 时 都 要 做 一 遍 这 个 过 程 
也 太 烦 人 了 。 


而 且 ， 不 是 说 计算 机 可 以 完成 所 有 这 些 麻烦 事 吗 ? 


用 某 和 往 法 继 护 走 回 基 姑 ， 让 散 据 坦 
谢 现 次 多 ， 这 未 是 高 入 说 营 吗 ? 可 我 
拓 道 


用 关系 数据 库 管 理 关 系 


关系 数据 库 管 理 系统 (RDBMS) 是 最 重要 最 有 效 的 数据 管理 方法 之 
天 系数 据 库 是 一 个 大 课题 ， 你 对 它 了 解 越 深 ， 束 越 能 发 挥 存储 在 
其 中 的 数据 的 作用 。 


重要 的 是 ， 要 知道 ， 数据 库 所 要 求 的 用 格 之 问 的 关系 各 是 量化 关系 ， 
作者 如 何 ， 它 只 知道 一 份 期 刊 有 多 位 作 


RDBMS 中 的 每 一 行 都 有 一 把 钥匙 ， 通 常 称 为 ID 〈 标 识 ) ， 钥 是 可 以 确 
保 这 些 量 化 关系 不 被 破坏 ， 一 旦 建立 了 RDBMS ， 请 注意 ;精心 构造 的 
关系 数据 就 会 成 为 数据 分 析 的 宝库 。 


a 《数据 邦 新 闻 》 有 一 个 数据 库 ， 要 完成 上 文 进行 过 的 分 析 就 容易 


《数据 邦 新 闻 》 利 用 你 的 关系 图 建立 了 一 个 
RDBMS 
现在 《新 闻 》 可 以 将 所 有 的 电子 表格 载 入 一 个 真正 的 RDBMS 中 了 。 你 


的 思维 成 果 ， 加 上 总 编 对 数据 的 解释 一 一 也 束 古 数据 库 结 构 ， 形 成 了 
下 面 这 个 关系 数据 库 。 


噬 然 已 经 找 出 了 最 位 文章 数目 ， 就 应 访 
和 在 清楚 哪 几 位 作 者 最 胎 允 迎 ， 这 样 就 能 保 
证 每 一 期 都 刊登 他 们 的 文章 ， 你 可 以 计算 
一 下 网 站 上 每 位 作者 盘 篇 文章 揭 点 击 率 和 
评论 结果 。 


动 动笔 

下 面 是 《数据 邦 新 闻 》 数 据 库 的 架构 ， 圈 出 你 需要 的 表格 ， 将 这 
| 位 作者 的 网 站 点 击 率 和 网 站 
评论 最 多 。 


然后 在 下 面 画 出 这 个 表格 ， 表 格 中 显示 用 于 画 散 点 图 的 儿 个 域 。 


网 one i 


| IID Or 一 


| IssurIC O—r | 


7 Comment D O—w 
( 让 是 新 系 接 …… 天 二 / 


在 这 里 画 出 斯 基文 覃 护 网 上 评价 。 / 
-Se 站 押 寺 


为 了 计算 某 个 作者 在 网 上 的 点 击 率 和 评价 情况 ， 以 便 以 此 评估 作 
者 的 受 欢 迎 程度 ， 你 需要 把 哪儿 个 表格 组 合 在 一 起 ? 


你 党 要 将 数据 库 中 脑 斌 三 个 
翰 卑 狙 合 在 一 个 素 蔡 中 。 


\ 


lasuelD DO-—w 


在 上 交合 骨 冯 表 按 中 ， 乱 一 列 
代 台 一 倍 良 刊 ， 值 更 在 ， 盘 一 
列 代 惠 一 箱 文 章 。 


Hnn 是 这 心 和 假设 天 榈 市 机 划 ?7 茵 
和 第 2 苞 文 章 三 作者 。 


《数据 邦 新 闻 》 用 SQL 提取 数据 


SQL 是 Structured Query Language 的 缩写 ， 即 结构 化 查询 语言 ， 是 一 种 
关系 数据 库 检 索 方 法 。 你 可 以 通过 输入 代码 或 使 用 能 创建 SQL 代码 的 
图 形 界面 ， 令 数据 库 回答 你 的 SQL 问题 。 


rs 


we 林 


Wyyyy. heacfrsilabs.convbookemfdal 
让 fos chi2 srticietHltsComments.csv 


创 境 这 个 数 据 驾 过 记 阳光 发 位 号 


| 的 实 襄 县 入 每 林 . 


这 个 查 鹿 概 富 XLIihori 任 
党 关中 uthorID 城 等 
于 1 的 作 海 名 条 


你 并 不 是 非 懂 SQL 不 可 ， 但 懂得 SQL 绝 不 是 坏事 。 重 要 的 是 ， 了 解数 据 
J 及 这 些 表 格 的 相互 关系 ， 进 而 懂得 如 何 提出 正确 的 问 


练习 


使 用 下 面 的 指令 将 hfda_ch12_articleHitsComments.csv 电子 
表格 加 载 到 R 中 ， 然 后 用 head 指 令 查 看 数据 : 


个 用 法 个 指令 肝 劳 
G 又 、 鄂 * 坊 地 站 | 加 
SrticlecHi-sSommorn-s <— “cad.Sewvl 改 要 这 盾 乏 联 中 
hp nw RSL Ds: Sn SET 
ifrda cS"17_ erticslef: -Somen tse.Csv", eader=TRIT3 


这 次 我 们 将 用 更 有 效 的 函数 创建 散 点 图 。 用 下 面 这 些 指令 加 
载 lattice 数 据 包 ， 然 后 运行 xyplot 公 式 ， 绘 制 lattice 散 点 图 。 


ibrarytlal... Ley 


xyElot iweddis~vomertcCount|lautliorName, Iata=as-ic_eHitscCoruner-s) 
这 是 一 个 新 符号 ! 


这 就 是 询 载 入 网 数据 


稿 (data Frame) 
根据 这 种 计算 方法 ， 哪 些 作 者 表现 最 好 ? 
练习 解答 
从 散 点 图 上 看 出 什么 了 ? 是 不 是 某 些 作 者 能 市 来 更 大 销量 ? 


将 hfda_ch12_articleHitsComments.csv 电子 表格 载 入 R。 

这 次 我 们 将 用 更 有 效 的 函数 创建 散 点 图 。 用 下 面 这 些 指令 加 
载 “]attice” 数 据 包 ， 然 后 运行 xyplot 公 式 ， 绘 制 lattice 散 点 图 。 
library(lattice) 


xyplot (webHits 四 
commentCount|authorName, data=articleHitsComments) 


> heod(orticleHitsComents) 
articleID authorName webHits commentCount 
1 Destiny Adams 2819 14 
2 Jon Radermacher 1421 6 
3 Matt Janney 1174 8 EE 


4 Matt Janney 1613 26 
5 Paul Semenec 1099 10 
6 Destiny Adams 1903 26 
> librory(lattice) 
> xyplot(webHits~commentCountlauthorName ,datawarticleHitsComments) 


> | 


\ 统 个 符 册 告诉 WD 江 澡 雪 技 浊 | 
作者 名 补 俗 甫 点 汉 全 把， 


这 个 指 俏 加 载 LaLEice 数 据 右 这 吕 赦 据 避 你 


家 中 酌 惠 格 一 致 . 


这 个 献 点 轧 集合 要 示 出 每 着 立 章 钢 网 站 点 二 率 
A 和 冬 论 决 数 ， 并 技 作 者 分 组 。 


位 20 为 怕 
Paul Semenec 


这 些 网 络 语 计 信 


评论 次 家 


根据 这 种 计算 方法 ， 哪 些 作 者 表现 最 好 ? 


很 明显 ，Rafaela Cortez 的 表现 最 J] 文章 点 击 率 都 在 
3000 以 上 ， 日 大 部 分 文章 都 有 20 多 篇 评论 ， 看 来 人 们 真 的 很 喜欢 
。 其 表现 十，Destiny 和 Nicole 表 现 较 好 ，Niko 的 


掀 数 据 很 普 Brewster 和 Jason 则 显得 不 太 受 欢迎 。 


让 是 蕊 访 寺 信 时 后 
一 说 仿 析 的 评价 . 


发 件 人 ， 攻 据 者 新 闻 


主题 ，” 头 于 泸 们 的 数 祷 


上 :大 让 我 旋 惊 了 ， 我 一 言 觉得 hafoslo 和 和 
. 和 Ue 
Dastiny 是 我 们 的 明 旱 作家， 可 没 想 下 领先 这 
tn bo ”人 
么 区。 符 坟 太 辫 所 他 刘 || 这 坚信 息 会 计 我 们 的 
2 2 名 "On FN ol 
出 版 物 夏 让 针对 性 ， 同 时 由 章 如 坦 奖 励 作 才 避 
去 殉 。 谢 说 . 


-一 数据 烛 六 闻 


RDBMS 数 据 可 以 进行 无 穷 无 尽 的 比较 


你 刚才 根据 《新 闻 》 的 RDMS 数 据 画 出 的 复杂 图 形 不 过 是 冰山 一 角 ， 各 
家 公司 的 数据 库 会 很 庞大 ， 绝 无 虚 言 。 作 为 分 析 师 ， 关 系数 据 库 意味 


着 你 可 以 进行 巨 量 比较 。 


一 奶 ， 几 何 放 庙 在 数据 


注 洁 洋 中 洋行 属 祈 | 


DL 


人 忠和 若 《 吉 据 间 新 闻 % 的 数据 闫 若 隐 
~ 一 与 抽 订 人 项 析出 这 息 去 上 法 ， 坦 其 安 


熟 声 座 很 窟 名 全 到 这 种 苞 检 . 


RDBMS 能 按照 你 的 心思 把 数据 关联 在 一 起 进行 有 效 的 比较 ， 关 系数 据 
库 让 分 析 师 美梦 成 真 。 


你 上 了 封面 


你 的 工作 让 《数据 邦 新 闻 》 的 作者 和 编辑 们 惊奇 不 已 ， 他 们 决定 把 你 
放 在 要 闻 版 ! 干 得 课 亮 。 猜 猜 看 ， 写 文章 的 会 是 谁 ? 


礁 忆 捐 信 ， 我 们 一 向 有 这 旭 
虱 所 ， 半 女 哺 着 加 利 而 。 太 
取 谢 了 ， 
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13 ”整理 数据 
井然 有 序 


省 一 切 都 并 井 有 条 时 ， 
坊 拘 工作 量 有 上 咸 效 。 


乱 糟 粳 的 数据 毫 无 用 处 。 


许多 数据 搜集 者 需要 花 大 量 时 间 整 理 数据 。 不 整齐 的 数据 无 法 进行 分 
割 、 无 法 套用 公式 ， 甚 至 无 法 阅读 ， 被 人 们 视而不见 也 是 常事 ， 对 不 
对 ? 其 实 ， 你 可 以 做 得 更 好 。 只 要 眼前 清楚 地 浮现 出 希望 看 到 的 数据 
人 
上 和 神 寄 。 


刚 从 停业 的 竞争 对 手 那 儿 搞 到 一 份 客户 名 单 
Head First 猎 头 公司 是 你 的 最 新 主 顾 ， 该 公司 从 一 家 停业 的 竞争 对 手 那 


儿 搞 到 了 一 份 求职 人 员 名 单 。 为 了 得 到 这 份 名 单 他 们 花 了 大 把 钞票 ， 
I 


这 份 名 单 会 是 一 个 金太 .…… 


米 
六 _ 快 来 下载 


米 


www.headfirstlabs.com/books/hfda/ 
hfda ch13 raw_ data.csvy 
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你 林 算 怎么 利 20 175mneridgernStephenson [ID 175)711376n748-792.7253N4270m01/ 10/08 09-43 
这 读 族 据 ‘21 2mReynaldomrlaflD 2jeriswl12233645 .382.3431n427JP01/11/106 06.06 
用 这 此 数据 | 2 sa"auemtinsRallD 63jndolphgl112078347.625-684784272p01/31/as 12-10 


i139°Detborahata(lD 136)rmbei0302w718-405-4184812773m01/11/08 12-46 
A425*StanieyuTownsedID 42jndz103]4s0217-775- M1 75477480)/12/08 15-05 
5s"LermspivelID 135)rew] 13614212-340-55020e77501/34/08 082D1 
177e"AaliyvehsstephensiO 177Jonsl01655646- 354- 567484776601/ 14/08 09-09 
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大 炉 糕 了， 数据 乱糟糟 的 ! 现在 这 副 样 子 客户 没 法 用 ， 这 正 是 他 们 找 
你 的 原因 。 你 能 帮 上 位 吗 ? 


数据 分 析 不 可 告 人 的 秘密 


数据 分 析 有 一 个 不 可 告 人 的 秘密 一 一 作为 数据 分 析 师 ， 你 花 在 数据 整 
理 上 的 时 间 多 过 数据 分 析 上 的 时 间 。 到 手 的 数据 往往 算 不 上 井 井 有 
此 ， 需 要 做 一 些 繁重 的 文字 处 理工 作 ， 使 数据 格式 符合 分 析 的 


Es 


动 动笔 
该 怎么 从 头 开 始 处 理 这 些 乱 哄 哄 的 数据 呢 ? 看 看 下 面 几 种 可 能 的 
办 法 ， 写 出 每 种 办 法 的 优 缺 点 。 


开始 重新 输入 。 
问 问 客 户 整 理 数据 的 目的 。 


写 出 一 个 公式 ， 整 理 数 据 。 


动 动笔 解答 
你 选择 第 一 步 做 什么 ? 


开始 重新 输入 


名 单 


我 们 起 受 -- 稚 电话 号 码 污 单 ， 这 得 绕 们 振 锁 和 加 
队 就 能 险 巴 认 训 抱 怪 池 信 打 电 话 。 这 居 刺 职 者 包 
免 是 我 们 胸 者 鸡 至 风 这 师 ， 我 们 卸 版 格 这 册 人 
我 下 -外 新 工作 药 糙 夹 公司， 


虽然 原始 数据 乱七八糟 ， 不 过 ， 看 来 他 们 只 想 抽 取 姓 名 和 电话 号 码 。 
这 问题 倒 不 大 ， 让 我 们 动手 .…… 


动 动笔 


下 面 的 数据 似乎 是 一 串 名 单 ， 按 照 客户 的 描述 ， 我 们 需要 的 正 古 
它 ， 你 需要 做 的 是 清晰 地 排列 这 份 名 单 。 


按照 布 望 看 到 的 数据 格式 ， 画 一 张 图 ， 显 示 数 据 列 和 数据 样 例 。 
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tv 了 emmmgtcneFarrf 加 7 1114934917. 643-40754423801/00/08 09.03 Te 
区 发 和 CallrD’ 
20 152"EbannakwiD 152|dhinwm1040Sw046 -815 77TEA4De04ONICSV0S 09 .41 总 妾 准 下 家 际 
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4 | 10sa"°PoriemparkliD 105js5173650714-483.572554264602/07106 13:11 
于 1634° Danovaraingral®D 155)me112244713.543.260G2D65801/na106 14: 认 
匠 10°Charicsm oCov( 174)7112204347 312.4725p426660140S/0G 15:48 
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3 035°Rylien ywiel DO 5631016017 74 S084042605M01/ O08 15 30 
好 -452OmalinRusliD45]hal16913535-516-30706416380110310G 1€:79 
在 这 心 填 
入 询 标 题 ， 


在 续 几 两 出 召 2 
护 葬 部 据 枯 局. 


和 


"hy 


顽 入 交行 数据 拉 x 


例 ， 示 意 希 多 看 i 


名 吉 豆 据 外 驶 ， Ss 
动 动笔 解答 
你 希望 整理 好 后 的 数据 是 什么 样子 ? 


水 可 忆 看 到 想 看 到 的 局 息 。 纤 
这 既 俯 息 都 捕 在 4 到 让 ……… 


Ns 


全 部 拆 分 售 当 后 ， 可 以 接 钠 据 
妈 频 逢 有 电话 号 码 …… 


强 进 本 株 症 。 过 注 ， 营 将 趟 据守 dy» 
入 邮 从 合并 程 订 ， 网 页 等 . 人 困 钛 至 头 划 要 | 


a he 


这 沾 90 减 于 玫 浆 ， 可 以 
殴 作 数据 网 开 一 世 。 


最 新 消息 | 数据 亿 然 混 
筷 ， 我 们 该 怎么 收 蓝 呢 ? 
局 


攒 想象 无 法 让 数据 井井有条 ， 此 话 不 假 。 不 过 ， 要 摆弄 混乱 的 数据 ， 
先 得 想象 一 个 解决 方案 。 让 我 们 看 一 看 修复 混乱 数据 的 常规 策略 ， 然 


后 开始 .…… 


清理 混乱 数据 的 根本 在 于 准备 


这 是 不 言 而 喻 的 ， 不 过 ， 和 做 其 他 数据 工作 一 样 ， 整 理 数 据 必须 首先 
从 复制 原始 数据 开始 ， 这 样 才 方 便 回 头 检查 。 


一 旦 你 确定 了 你 目 己 想 要 得 到 的 数据 外 观 ， 束 可 以 继续 从 混乱 中 分 辨 
出 数据 模式 。 
最 后 要 做 到 的 生 回 头 逐 行 修改 数据 一 一 这 可 要 大 费 周折 ， 所 以 要是 能 
够 识别 重复 出 现 的 混乱 符号 ， 丈 能 写 出 公式 和 函数 ， 然 后 利用 各 种 模 
式 整理 数据 。 
一 旦 组 织 好 数据 ， 就 能 修复 数据 
然后 束 可 以 利用 手头 的 数据 模式 开始 认真 修复 数据 。 你 会 发 现 ， 这 个 
过 程 常常 会 反复 发 生 ， 即 ， 要 一 次 又 一 次 地 重新 构造 和 整理 数据 ， 直 
到 得 到 所 需要 的 结果 。 

动 动笔 

目 完 ， 让 我 们 拆 分 数据 域 。 有 模式 可 用 于 拆 分 各 个 域 吗 ? 


MW] a BB ce 5 三 F 时 1 
到 | porsoriDPFirsiNameaLastNarmer2lpiyphonecscallIEsTenme 

2 27r“AIBxmpFasmwssflD 127JSnwi3422H715 534 23051425Dy01AM1A06 12:32 

3 mBrendernnhasmyss(ID SH enm 0l5n6s6-.812- 72901425340] /02/06 13:17 

a 94mBeaurWarellD 94100139046- 591-992554254501/02/08 14:54 

5 1278“AlDxiapFaliD 127)emisseniil472H716. 34.2403H4255m01 /03/08 15:37 

5 1S6n*JaccbysCoflD 156jokp8100454917-808-5185:34255501/03/05 1552 

7 1398“QGuimtenblluatellp 139MdF100169717-507-22550425 7#01/04/08 13:19 

du 万 "emingtonsFarriiD 75]ellwi1690917-643-4600044258401/05/00 09;09 

9 SimpPecrospayllD 91)nesl00054232-498-656284259a01105YV05 09.10 


动 动笔 解答 
在 数据 中 发 现 了 哪些 模式 ? 
当然 ! 数据 域 都 挤 在 A 列 中 。 每 个 域 之 间 有 一 个 字符 : #。 


各 上 上 C D E F 1 
PersoniDeFirstNamenLastNameszipsPphonesCalllDrTime 

| 1278AAlexilasRasmusslID 127)en#114224718-534-2403#4252801/01/08 12:32 
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将 # 号 作为 分 隅 符 


Excel 有 一 个 称 手 的 工具 ， 当 各 个 数据 域 以 某 个 分 隔 符 ”( 即 ， 将 域 与 域 
隔 开 的 字符 ) 分 隔 时 ， 这 个 工具 可 以 将 数据 拆 分 为 几 个 列 。 选 择 A 列 数 
据 ， 按 下 Data (数据 ) 选项 卡 下 的 “Text to Columns”( 文 本 转变 为 列 ) 


现在 ， 向 导 已 经 启动 。 第 一 步 先 告诉 Excel 数 据 以 分 隔 符 分 开 ; 第 
二 步 告诉 Excel 分 隔 符 即 # 字 符 。 单 击 “Finish”( 完 成) 后 结果 如 何 呢 ? 


Excel 通 过 分 隔 符 将 数据 分 成 多 个 列 


小 事 一 桩 。 只 要 各 个 数据 域 之 间 有 分 隔 符 隔 开 ， 使 用 Excel 的 Convert 
Text to Column Wizard (文本 转变 为 列 向 导 ) 会 非常 方便 。 


不 过 这 些 数据 仍然 有 问题 。 例 如 ， 姓 和 名 的 域 中 部 有 一 些 多 余 的 符 
号 ， 必 须 想 个 办 法 除 挥 这 些 多 余 的 符号 ! 


醒 然 数据 已 轻 拆 和 并， 号 可 
观音 数据 已 了 经济林 以 想 据 党 要 仿 别处 娼 了， 
地 全 或 了 泡 列 . 
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“pintName” (各) 境 情 况 允 必 何 ? 
动 动笔 
你 会 使 用 什么 模式 来 修复 FirstName 列 ? 


动 动笔 解答 
FirstName 域 中 是 否 有 某 个 造成 混乱 的 模式 ? 


全 人 记性 


人 一 个 《A» 字 人 猎 o。 了 EP 介 | 二 = = 文 紫 禾 号 


BB 


得 到 纯粹 的 姓 。 


^FELCStLName 


| UL 

Se 
流 相 宽 答 这 上 邮 兮 汉 关 
A 2 


一 、 


帘 要 几 一 些 扶 镍 工具 硼 
绯 设 出 “” 


~Jaqueline 
“Porter 
we —* Ebonavan 


连连 看 


将 Excel 公 式 与 功能 搭配 起 来 。 你 觉得 可 以 用 哪 种 功能 整理 名 字 
列 ? 


FIND 求 单元 格 的 长 度 。 

LEFT 求 以 文本 格式 存储 的 数字 的 数值 。 

RIGHT 取 单 元 格 右 边 的 字符 。 

TRIM 以 指定 的 新 文本 替代 单元 格 中 不 需要 的 文本 。 
LEN 告诉 你 在 单元 格 中 的 哪个 位 置 查 找 搜索 字符 串 。 
CONCATENATE 取 两 个 值 ， 然 后 合并 在 一 起 。 


VALUE 取 单 元 格 左边 的 字符 。 
SUBSTITUTE 删除 单元 格 中 的 空格 。 


连连 看 解答 


将 Excel 公 式 与 功能 搭配 起 来 。 你 觉得 可 以 用 哪 种 功能 整理 名 字 


列 ? 


Ne 这 求 也 元 措 的 长 骂 。 


LEFT \ p¢ 访 求 以 文本 格式 存 尘 前条 富 的 数 令 
SS A 


\ \ / a 
RIGHT 一 一 一 一 一 一 了 一 全 取 单元 % 布 这 的 字 梓 。 
/ 


\ 


TRIN 八 A 六 以 指定 的 条文 本 替代 单元 梯 中 不 当归 的 
村 7 \ 总 区 村 


ea 
/你 在 单 训 格 中 的 球 个 位 置 要 找 搜 索 全 
\ 冬 11。 

\ / 中 全 


Ey 
CONCATENAR A 取 西 个 值 ， 然 片 合 站 在 .起 。 
i 
/ \ 站 站 
VALUE 一 入 的 字 符 。 


rr ~ a 
CSUBSTITUTE 一 3 出 除 妆 开 格 瑟 的 空格 ， 


万 = 
人 这 部 是 载 们 要 用 觅 公式， 用 它 可 以 普 换 撞 
之 直列 中 的 “< 字符 ， 


用 SUBSTITUTE 替 换 <*^ 人 ”字符 


在 单元 格 H2 中 输入 下 面 公式 可 修复 FirstName 域 : 
=SUBSTITUTE(B2,°\”,°”) 


56 VW)000 15S2 


复制 这 个 公式 ， 在 H 列 中 从 头 到 尾 粘贴 这 个 公式 。 结 果 如 何 ? 
世上 没有 傻 问 题 

问 : ”只 有 这 些 公 式 可 用 吗 ? 要 是 我 想 取 出 单元 格 左 右 两 边 的 字符 拼接 

在 一 起 ， 该 怎么 做 ? 似乎 没有 这 种 公式 。 

管 : 是 没有 ， 不 过 你 可 以 将 文本 画 数 嵌 套 起 来 用 ， 这 样 就 能 完成 更 复 


全 : 


杂 的 文本 处 理 。 例 如 ， 如 琳 想 取出 单元 格 “A1” 中 的 第 一 个 和 最 后 一 个 
字符 拼接 在 一 起 ， 可 以 使 用 下 面 这 个 公式 : 


CONCATENATE( LEFT(A1, 1), 


RIGHT(A1, 1)) 


问 : 这么 说 我 可 以 把 一 大 堆 文 本 公式 幅 套 在 一 起 ? 


管 : 可 以 ， 这 对 于 处 理 文本 很 有 效 。 不 过 有 一 个 问题 : 要 是 数据 实在 
太 乱 ， 再 把 一 大 堆 公 式 藤 套 在 一 起 ， 整 个 公式 整 几乎 没 法 辨认 了 。 


问 : 管 它 呢 ， 只 要 有 效 就 行 ， 我 没 打算 辨认 。 


管 : 呵 ， 公 式 越 复杂 ， 就 越 需要 小 心 调整 ， 公 式 越 难 辨认 ， 就 越 难以 
调整 。 


问 :” 那 该 怎么 回避 繁复 而 难以 辨认 的 公式 呢 ? 

管 : 不 要 把 较 小 的 公式 合并 成 一 个 大 公式 ， 而 是 把 小 公式 拆 成 几 个 不 
同 的 单元 格 ， 再 用 一 个 最 终 的 公式 将 所 有 单元 格 合并 起 来 。 通 过 这 种 
方法 ， 假 如 有 哪里 不 对 ， 就 很 容易 找 出 需要 调整 的 公式 。 

问 : ”我 打赌 “<R”* 有 更 好 的 文本 处 理 办 法 。 


答 : 有 是 有 ， 不 过 干 嘛 要 费事 去 学 呢 ? 要 是 Excel 的 SUBSTITUTE 公 式 
能 够 完成 任务 ， 就 省 省 时 间 吧 ， 别 管 R 怎么 做 了 。 


所 有 的 “ 姓 ” 都 整理 好 了 


利用 Excel 的 SUBSTITUTE 选 取 每 个 “ 姓 ” 中 的 “人 符号 ， 代 之 以 通过 两 个 
引号 (“”) 指定 的 空 内 容 。 


其 他 许多 软件 都 是 通过 以 空 内 容 蔡 换 元 余 字 符 来 实现 删除 元 余 字 符 。 


这 是 原 杂 的 “ 
由 ”台所 。 


这 艺 值 都 是 
SUBSTITUZE 公 


洪 的 洽 忠 结 浴 . 
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“ 叫 ” 远 是 包 正 第。 
SR 


为 了 未 远 虹 除 硕 米 的 “起 ” 数 掺 ， 复 
由 FF 到 。 芒 去 执行 “Paste Special > Vajuea” 
i 和 渤 尝 钵 本 巾 = 数 位 )， 将 达 些 位 力 变 友 丝 一 一 先 修 在 忆 上 二 件 生出 蛤 ……… 
文本 ， 帮 布下 是 公式 注 与 芋 东 。 随 后 时 可 划 互 一 贞 霸 还 秀 重 新 开 贻 ， 
除 FisstRerma 到 ， 这 科 珊 再 看 不 到 说 大 
的 “mv 答对 了 


琦 。“ 如 ”网 这 种 模式 容易 对付 ， 困 鸭 
只 有 一 个 开头 富 符 要 出 除 。 “名 ”就 闪 
了 ， 接 并 峙 烦 得 多 ， 


boa 3 
让 我 们 再 用 用 SUBSTITUTE ， 这 次 要 修复 的 是 “名 ”。 


首先 从 一 片 混乱 中 找 出 数据 模式 。 你 想 让 SUBSTITUTE 和 蔡 换 什 
么 ? 句法 结构 如 下 : 


=SUBSTITUTE (参考 单元 格 ， 被 替换 的 文本 ， 用 于 替换 的 文本 ) 
你 能 写 出 一 个 有 效 的 公式 吗 ? 

动 动笔 解答 

能 用 SUBSTITUTE 修 复 LastName 域 吗 ? 


SUBSTITUTE 对 此 无 效 ! 每 个 单元 格 的 乱码 都 不 一 样 ， 要 想 让 
SUBSTITUTE 生 效 ， 殉 得 为 每 一 个 “名 ” 写 一 个 公式 。 


C 
LastName 
Rasmuss(ID 127jen 
Rasmuss(ID 98)en 
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RallD 127jsmussen 
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这 就 失去 了 使 用 公式 的 意义 一 一 使 用 公式 不 就 是 为 了 摊 脱 输入 输 


入 再 输入 的 麻烦 吗 ! 


用 SUBSTITUTE 替 换 名 字模 式 太 麻烦 了 


SUBSTITUTE 函数 的 功能 是 找到 某 种 格式 的 文本 字符 串 并 和 替 


换 ， “名 "的 问题 是 每 个 名 称 都 各 不 相同 ， 难 以 替换 。 


字符 


广 些 文本 
钊 名 不 相同 


Ry jg 


Rasmuss (ID 98)en 


Col(lID 156)ok 


没 法 输入 葵 撞 值 ， 因 为 
这 些 值 会 变 隶 家 去 ， 


不 仅 如 此 ，LastName 域 的 复杂 模式 还 在 于 : 不 统一 的 字 
个 单元 格 的 不 同位 置 上 ， 长 度 也 不 一 样 。 


符 串 出 现在 各 


这 旦 网 处 多 一 从 


-一 一 这 段 文浩 的 长度 


7 是 ?个 字符 . 


Rasmuss (ID 98) en 


Co({ID 156)ok 议 一 窒 易 长 谨 
A 


第 生僻 窜 芥 开 眙 ! 一 一 则 坎 2 个 鹤 芍 ， 
s We 


用 赂 天文 本 公式 处 理 复 杂 的 模式 


熟悉 了 Excel 的 文本 公式 之 后 ， 就 可 以 赂 套 使 用 ， 以 便 处 理 混乱 的 数 
据 。 实 例如 下 : 


IND 公 冻 乱 司 一 个 全 


各 “1 位置 的 魏 重 ， 


IEFT 取 出 耻 ce 
帮 注 县 立 村 Rasmuss{ID 98) en 
TP 半 放下 


>Rasmuss{ID 98) en 


RIGET 取 出 芥 
TAHT TMS, ~ 


TI TP 


及 六 六 让 
asmuss (ID 98) en 人 二 外 欧文 本 
区 i Rasmussen 
| 因 En 代 
\ 


-ONCATENATE 特 / 
伟 来 组 合 在 一 起 ， 


公式 行 得 通 ， 但 有 一 个 问题 ， 公 式 开始 变 得 星 涩 难 懂 。 要 是 能 一 次 性 
把 公式 写 全 ， 这 倒 也 算 不 得 问题 ， 不 过 ， 能 有 一 个 既 简 单 又 有 效 的 工 
具 会 更 好 ， 但 CONCATENATE 没 有 做 到 这 一 点 。 


AAA 


可 有 冰 可 唆 隶 用 从 长 及 识 的 公 训 。 而 用 隙 简 
单 胃 办 流入 东 流 庆 而 蓝本 蛤 部 据 呢 7 闹 知 
诞 训 式 过 是 在 做 分 轿 了 了 …… 


R 能 用 正则 表达 式 处 理 复杂 的 数据 模式 


正则 表达 式 是 一 种 编程 工具 ， 你 可 以 用 这 个 工具 指定 复杂 的 模式 以 便 
匹配 和 车 换文 本 子 符 串 ，R 在 这 方面 非常 好 用 。 


下 面 是 一 个 用 于 查找 字母 “a” 的 简单 的 正则 表达 式 模式 。 在 R 中 输入 这 
个 模式 ，R 将 指出 是 否 存 在 匹配 结果 。 


技巧 
为 了 进一步 了 解 正则 表达 式 的 完整 规定 和 语法 ， 让 我 们 在 R 中 输 


人 入“?regex”。° 
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正则 表达 式 是 整理 混乱 数据 的 杀手 铜 ， 大 量 平台 和 编程 语言 都 使 用 正 
则 表达 式 一 一 虽说 Excel 并 不 使 用 。 


发 件 人 : Head First 猎头 公 司 

收 件 人 : 分 析 师 

主题 : 现在 就 要 名 单 

好 好 干 ! 这 些 人 很 热门 ， 不 过 已 经 开始 遇 冷 。 
我 希望 营销 团队 不 要 错过 打 电 话 的 时 机 ! 
最 好 行动 起 来 ! 方案 : 


和。 将 营 济 加 城 侧 R 中 ， 下 看 hsaz 洗 令 得 出 的 缚 果 ， 吕 以 将 Excel 文 件 保存 六 
为 CSV 文 什 ， 然 后 将 CSV 文 件 下 载 到 R 中 ， 表 "| 使 用 以 下 风 第 谤 接 址 中 
最 打数 据 ， 


这 个 指 邮 兰 忆 3TT 访 
入 一 小 名 趣 hfhh 应 


条 接 中 
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运行 以 下 正则 表达 式 指令 


NewLastName <- sub(“\\(.*\\)”,””,hfhh$LastName) 


然后 检查 一 下 工作 成 果 : 运行 head 指 令 ， 查 看 表格 前 儿 行 。 
head (NewLastNanme) 
结果 如 何 ? 


用 sub 指 令 整 理 “ 名 >” 


sub 指 令 用 空格 替换 所 发 现 的 所 有 指定 模式 ， 有 效 地 删除 了 LastName 列 
中 的 每 一 个 插入 文本 字符 串 。 


RR pe Ed Yiew Mac package Windows Help 


ESO GSCIO ms 
> Hewtanatiane < subi" 4 wh 


让 我 们 看 看 语法 : 
这 吕 凶 各 到 本 
这 是 条 ' 表 经久 八 理 x 斌 证 晤 从 六 呈 ， 
“” 肌 新 i 是 A 迄 却 访 头 ， ee 此 过 换 匹配 找 实 。 
) 站 


NewLastName <— sub (WV (*\\)",""”, hfhh$sLastNane) 


能 在 混乱 数据 中 找到 一 个 模式 ， 丈 能 写 出 并 利用 正则 表达 式 得 到 
自 己 想 要 的 数据 结构 。 


再 不 必 编 写 长 得 让 人 发 状 的 电子 表格 公式 了 ! 


正则 表达 式 细节 
正则 表达 式 包 括 三 个 部 分 ， 左 括号 、 右 括号 、 括 号 里 面 的 所 有 内 
> 


号 中 六 所 二 
友 括 号 【《 流 样 粒 冲 = \ 内 容 。 了 


NANO .+ \\) 


a ' 
寄 特 . 一 星 号 代表 位 何 数 
的 前 面 字 蔡 。 


世上 没有 傻 问 题 
问 : 某 些 正则 表达 式 似乎 的 确 难 以 看 懂 ， 掌 握 正 则 表达 式 有 多 难 ? 


管 : 正则 表达 式 难 懂 的 原因 是 它们 非常 精炼 。 在 语法 上 精打细算 非常 
有 利于 处 理 销 绿 复杂 的 模式 。 和 其 他 复杂 事物 一 样 ， 正 则 表达 陈 易学 
难 精 。 多 花 点 时 间 研 究 正则 表达 式 吧 ， 你 会 弄 明日 的 。 


间 :” 要 是 没有 电子 数据 表 怎 么 办 ? 我 的 数据 可 能 取 自 PDF、 网 页 或 其 
至 是 XML 。 


答 : 这 才 是 正则 表达 式 的 用 武之 地 。 只 要 能 把 信息 转变 成 某 种 文本 文 
件 ， 束 能 用 正则 表达 式 解 析 。 网 页 尤其 古 数 据 分 析 工 作 中 和 常见、 地 道 
的 信息 来 源 ， 把 HTML 标记 模式 编制 成 正则 表达 式 不 过 是 小 瑟 一 碟 。 
问 : ”其 他 还 有 哪些 特定 平台 使 用 正则 表达 式 ? 


答 : Java 、Perl 、Python 、Java-Script ... 各 种 各 样 的 编程 语言 都 使 用 
正则 表达 式 。 


问 : 既然 正则 表达 式 在 编程 语言 中 广泛 使 用 ， 为 什么 Excel 不 能 执行 正 
则 表达 式 ? 

管 : 在 Windows 平台 上 ， 你 可 以 用 Excel 自 带 的 VBA 编 程 语言 执行 正 
则 表达 式 。 但 大 部 分 人 很 快 就 会 不 再 费心 学 习 Excel 编 程 ， 而 是 改 用 功 


能 更 强大 的 程序 ， 比 如 R 。 哦 ， 由 于 最 新 发 布 的 Excel for Mac 去 掉 了 
VBA， 所 以 ， 无论 如 何 都 不 能 在 Excel for Mac 中 使 用 正则 表达 式 了 。 


现在 可 以 同 客 户 交 货 了 


最 好 把 最 新 工作 成 采写 成 CSV 文 件 供 客 户 使 用 。 


rr No Eachages re ; 
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这 小 文科 会 出 阐 在 太 胸 工作 
目 未 下 ， 可 估 用 本 ELtwd11 
_ 挡 从 查 意 攻 工作 可 床 。 


不 管 客户 用 的 是 Excel、OpenOffice 还 是 其 他 统计 软件 ， 都 能 读 取 CSV 
人 


可 能 尚未 大 劝告 成 .…… 
客户 对 你 的 工作 成 果 颇 有 微 辞 。 


这 没 洁 用 啊 ! 看 这 些 重 
复 条 目 | 


他 说 得 对 。 以 Alexia Rasmussen 为 例 : Alexia 人 确实 出 现 了 一 次 以 上 。 当 
然 ， 可 能 有 两 位 同名 同姓 的 Alexia Rasmussen， 可 是 ， 再 仔细 一 看 呢 ， 
两 条 记录 的 “PersonID” 都 等 于 “127”， 这 就 表示 是 同一 个 人 。 


有 可 能 Alexia 是 唯一 重复 出 现 的 名 字 ， 而 客户 正巧 看 到 了 这 个 错误 。 
为 了 查 清 究竟 ， 你 需要 想 个 办 法 让 目 己 更 轻松 地 找 出 重复 现象 ， 而 不 
用 费力 查看 这 张 长 长 的 名 单 。 
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为 数据 排序 ， 让 重复 数值 集中 出 现 


如 果 数 据 量 很 大 ， 则 发 现 重 复数 值 幅 为 不 易 ， 给 名 单 排 个 序 的 话 就 容 


易 多 了 。 


宣 狗 让 纺 志 理 中 蚁 覃 名 
里 总 映 菇 不 易 ， 万 其 是 
奏 名 单 改 长 的 情 弄 下 


ee 


™、 


练习 
让 我 们 通过 排序 更 仔细 地 看 看 名 单 中 的 重复 情况 。 


这 语 宽 大 王 志 和 . 


J 通过 子 集 括号 中 的 order 函 数 可 以 对 数据 框架 排序 。 执 行 下 


排 由 楼 出 抽 新 名 间 . 


由 于 PersonID 域 有 可 能 是 代表 每 一 个 人 的 特定 编号 ， 用 它 排 序 再 好 
不 过 。 上 毕竟， 这 些 数 据 中 可 能 不 止 一 个 叫做 “John Smith” 的 人 。 


下 面 ， 执 行 head 指 令 看 看 生成 的 结果 : 


head(hfhhSorted, n=50) 


R 做 了 什么 ? 
oa 可 解答 
用 R 按 照 PersonID 对 数据 框架 排序 后 ， 发 现 有 重复 数据 吗 ? 
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若 手头 数据 非常 混乱 ， 就 应 该 大 胆 地 排序 ， 尤 其 是 在 记录 量 很 大 
的 情况 下 ， 要 一 次 性 看 请 所 有 的 数据 往往 很 难 ， 而 按照 不 同 的 域 
对 数据 进行 排序 则 能 够 以 直观 的 方式 为 数据 分 组 ， 从 而 发 现 重复 
现象 或 其 他 疑义 。 


硝 几 点 可 有 疑 之 处 。 载 们 网 竞争 对 手 
鸭 什 么 要 重复 保存 数据 ? 是 在 开 话 
笑 吗 ? 


动 动笔 
仔细 看 看 这 些 数据 。 能 说 说 为 什么 名 字 会 重复 吗 ? 


动 动笔 解答 
你 认为 相同 的 名 字 为 什么 会 重复 出 现 ? 


Li 以 Cengs 同 [ep gy” 


SFT GI 证 生 时 于 


这 此 数据 有 可 能 来 源 于 某 个 关系 数据 库 


如 果 你 所 拥有 的 混乱 的 数据 列表 中 出 现 重 复元 素 ， 则 这 些 数据 有 可 能 
来 目 一 个 关系 数据 库 。 在 本 例 中 ， 你 使 用 的 数据 是 茶 个 查询 的 输出 结 
果 ， 且 被 输出 成 两 个 表格 。 


由 于 你 了 解 RDBMS 染 构 ， 你 知道 ， 我 们 之 所 以 看 到 这 些 重 复 现象 ， 走 
因为 查询 返回 数据 的 方式 ， 而 不 是 因为 数据 质量 低劣 。 所 以 ， 你 现在 
可 以 放心 地 删除 这 些 重复 的 名 称 ， 而 不 必 担 心 数据 中 存在 本 质 错误 。 


其 他 表格 


PorsonID 
这 学 数据 网 原 冯 数据 7 
活 可 能 是 这 个 衬 豆 ， = 


( 


电话 
PersonlD PhoneCalllD 
FirstName PersonlD 
LastName | | CalDate | 
Ete- | Et | 


更 多 资料 


PersoniD 


~ 


玲 知 道 这 个 数 
据 库 中 还 有 此 
什么 资料 呢 ? 


Etc'” 


删除 重复 名 字 


既然 已 经 知道 名 字 出 现 重 复 的 原因 ， 就 可 以 开始 删除 了 。R 和 了 Excel 都 
有 用 于 删除 重复 数据 的 快捷 、 人 简便 的 函数 。 


_， 
在 玉 中 筷 担 氏 


在 R 中 出 除 生 所 数据 非 巡 简便 ， 

席 了 出 陈 乎 间 狐 :有 内，“Lricuc” 同 阁 
还 运 网 “六 交 基 或 及 右 拒 害处 如 吃 
起: 疝 王 Ee 


: € 
Unicdue (mydata) 
这 功 对 了 1 其 玉 临 站 采 教 值 需 诈 绎 


-个 新 名 你 ， 记 样 这 能 使 下 下 异 的 间 
一 点 吓 好 。 


了 除去 这 些 烦 


痢 “uniaue” 


喝 数 。 


/ Remove 
由 了 在 记 <c 尺 定 出 际 Duplicates 
香 提 数 熏 ， 合 用 这 | ysel 飞 要求 作 括 册 哪 几 列 鉴 袖 包 分 
个 六 入， 下 如 数 伯 ， 二 他 到 小 秒 旧 所 名 禾 肖 


人 的 重复 名 字 的 工具 ， 


在 Excal 中 蜀 除 重复 数据 是 小 菜 一 醋 : 


必须 至 区 本 恋 在 可 拉 上 ， 水 后 点 右 


这 个 按 沁 ; 


次 被 盾 | 宗 ， 


忠 让 我 们 整理 名 


米 
了 “NR 中 一 委 亲 名 地 


| 1 修 基 数据 …… 
Lm LE -村 - 娄 - 


删除 callID 和 Time 域 ， 这 些 域 使 名 字 出 现 重复 ， 而 客户 并 不 需要 
这 些 域 : 


hfhhNamesOnly$CallID< -NULL 


hfhhNamesOonly$Time< -NULL 


使 用 unique 画 数 删 除 重复 的 名 称 : 


EliNamesorlyv < onicueilnfhlhNamesculy) < 


看 一 看 结果 ， 将 结果 写 入 一 个 新 的 CSV 文 件 : 


head(hfhhNamesOonly, n=50) 


write.csv(hfhhNamesOonly, file=“hfhhNamesOnly.csv”) 


你 创建 了 美观 、 整 洁 、 具 有 唯一 性 的 记录 
这 些 数据 看 起 来 无 懈 可 击 :没有 挤 在 一 起 的 数据 列 ， 没 有 混乱 的 字 
从 没有 重复 现象 。 这 邦 是 术 照 下 列 整 理 注 乱 数据 的 基本 步 台 进行 换 
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Head First 猎 头 公司 正在 一 网 打 尽 各 种 人 才 ! 
事实 证 明 ， 你 整理 的 数据 集 收效 奇特 。 和 凭借 这 份 活 色 生 香 的 名 单 ， 


Head First 猎 头 公司 客 户 和 便门 ， 没 有 你 的 数据 整理 技术 ， 他 们 决 不 可 能 
走 到 这 一 步 。 干 得 漂亮 ! 


将 执 了 1 我 们 找到 了 有 
多 上 渔 条 人 才 ， 雍 以 前 多 
匈 了 了 4 


数据 邦 感谢 您 的 光临 ! 

离别 让 人 黯然 神伤 。 不 过 ， 看 到 你 学 以 致 用 ， 这 是 我 们 再 高 兴 不 过 的 
事 。 你 的 分 析 师 人 生 刚 刚 开始 ， 我 们 已 经 扶 你 上 马 。 我 们 淘 望 知道 你 
的 消息 ， 所 以 ， 来 Head First 图 书馆 网 页 上 (www.headfirstlabs.com ) 给 
我 们 写 几 名 吧 ， 让 我 们 知道 数据 分 析 为 你 做 出 的 贡献 ! 


附录 A: 尾声 
正文 未 及 的 十 大 要 诀 


未 设 结 车 呢 ， 对 吧 ? 事情 多 省 
呢 ! 
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你 已 颇 有 收获 。 


但 数据 分 析 这 门 技术 不 断 变 迁 ， 学 之 不 尽 。 由 于 本 书 篇 幅 有 限 ， 疝 有 
一 些 密切 相关 的 知识 未 予 介绍 ， 我 们 将 在 本 附 孙 中 浏 斋 十 大 知识 感 。 


其 一 : 统计 知识 大 全 


统计 学 领域 拥有 大 量 数据 分 析 工 具 和 技术 ， 对 数据 分 析 极 其 重要 ， 力 
至 许多 “数据 分 析 ” 著 作 其 实 束 是 统计 学 著作 。 


下 面 列 出 本 书 未 提 太 的 统计 工具 。 


| FF 六 ， 了 是 站 了 需 蝇 
”这 过 和 说 就 太 虹 了 了. 
ps f 
\ 
y 
贿 假 设 科 毅雄 恰 
调 音 T 控 
因 箔 这 问 旦 芒 性 检验 大 方 检验 
HAR 。 且 时 于 27 栓 吉 
捍 本 均 第 
《深入 淡出 数据 分 本 
隶 提 及 的 综 计 知 记 鲸 率直 为 攻 
人 随机 变 基 正 过 过 反光 
冬 法 提出 ~~ < 
委 交 忻 
二 项 式 凿 届 概 军 , 


不 过 ， 通 过 本 书 ， 你 在 假设 和 建 模 意识 方面 获得 了 长 足 进 步 ， 不 仅 为 
使 用 各 种 统计 工具 做 好 了 准备 ， 也 了 解 到 了 各 种 统计 工具 的 局 限 性 。 


统计 知识 越 渊 博 ， 分 析 工 作 越 有 可 能 取得 辉煌 成 就 。 
上 一。 Excel 技 巧 


本 书 假定 你 掌握 了 基本 的 电子 表格 技术 ， 但 娴熟 的 数据 分 析 师 应 该 是 
一 个 电子 表格 忍者 。 


与 R 及 回归 等 概念 相 比 ， 掌 握 Excel 并 不 是 特别 难 。 你 行 的 ! 
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其 三 : 耶鲁 大 学 教授 Edward Tufte (爱德华 . 塔 夫 
特 ) 的 图 形 原则 

优秀 的 数据 分 析 师 会 伦 大 量 的 时 间 反 复 拜 读数 据 分 析 大 师 的 杰作 ， 
Edward Tufte 不 仅 在 自己 的 工作 上 独树一帜 ， 而 且 对 搜集 并 选 入 自己 渚 


作 的 其 他 分 析 师 的 作品 质量 也 有 独特 的 看 法 。 下 面 是 他 提出 的 关于 分 
析 设 计 的 基本 原则 : 


“体现 出 因果 关系 、 机 制 、 理 由 、 系 统 结构 。” 
“体现 出 多 元 数据 ， 即 体现 出 1 个 或 2 个 变量 。” 
“将 文字 、 数 字 、 图 片 、 图 形 全 面 结合 起 来 。” 


“数据 分 析 报 告 的 成 败 在 于 报告 内 容 的 质量 、 相 关 性 和 整体 性 。” 
一 Edward Tufte 


这 些 引 言 出 和 目 其 著作 《出 色 的 证 据 》 (Beautiful Evidence ) 之 127、 
128、130、131、133、136 页 。 其 著作 可 谓 数据 图 形 化 顶级 作品 展 馆 。 


另外 ， 其 著作 《公共 政策 数据 分 析 》 (Data Analysis for Public Policy 
) 可 谓 回 归 技 术 宝 典 ， 可 在 此 网 址 免费 下 载 : 
http://www.edwardtufte.com/tufte/dapp/ . 


其 四 : 数据 透视 表 


数据 透视 表 是 电子 表格 和 数据 分 析 软 件 中 极其 有 效 的 数据 分 析 工 具 ， 
是 探索 性 数据 分 析 和 相关 数据 库 数据 汇总 的 梦幻 之 作 。 
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其 五 : R 社 区 


R 不 只 是 一 个 出 色 的 软件 程序 ， 它 还 是 一 个 出 色 的 软件 平台 。 甚 威力 
来 源 于 全 球 用 户 和 作者 社区 ， 这 些 用 户 和 作者 向 社区 提交 免费 软件 包 
， 其 他 人 则 可 借助 这 些 成 果 进 行 数据 分 析 。 


通过 运行 神奇 的 数据 图 形 化 数据 包 lattice 中 的 “xyplot* 函 数 ， 你 已 
经 体验 过 这 个 社区 。 


你 及 完 虚 某 电 可 以 是 湛 交 自己 
党 委 鹏 者 种 对 人 诗 包 网 和 组合. 


其 六 : 非 线性 与 多 元 回归 


即使 数据 未 呈现 线性 外 观 ， 在 某 些 情况 下 ， > 
测 。 一 种 办 法 是 将 数字 变形 ， 最 终 使 数据 线性 化 ， 另 一 种 办 法 是 穿 过 
图 上 的 点 画 一 条 多 项 式 回归 线 ， 以 此 取代 线性 回归 线 。 


同样 ， 不 必 限 定 目 己 通 过 唯一 的 目 变 量 预 测 一 个 应 变量 。 有 时 候 ， 影 
We 


四 苯 网 点 
y=at bx 
| 用 这 伙 泣 共通 纪 自 
一 一 重 贪 汕 一 个 忘 次 量 


一 六 可 以 号 出 一 - 沾 和 或， 通过 和 小 自 京 重 阁 测 -- 个 站 次 重 ， 


/ 


¥=a+bx + cx,+ dx,+ 


其 七 : 原 假设 - 备 择 假 设 检验 

尽管 第 5 章 介绍 的 假设 检验 技术 用 途 广泛 ， 能 洱 盖 各 种 分 析 问题 ， 但 
是 ， 不 少 人 (尤其 是 学 术 界 与 科学 界 ) 一 听 到 "假设 检验 "这 几 个 字 ， 
就 会 想到 统计 技术 中 的 原 假设 - 备 择 假设 检验 。 


使 用 这 个 技术 的 人 多 于 理解 这 个 技术 的 人 ， 如 果 想 学 会 ，《 深 入 浅 出 
统计 学 》 (Head First Statistics ) 是 个 不 错 的 起 点 。 


对 二 我 网 数据 来 说 ， 原 
假设 可 行 吗 ? 


其 八 ， 随 机 性 
随机 性 是 数据 分 析 的 重头 戏 。 


原因 是 随机 性 几乎 无 迹 可 寻 “。 当 人 们 试图 解释 事件 时 ， 通 过 以 模型 套 
证 据 ， 可 以 解释 得 很 好 ， 但 在 做 决定 的 时 候 ， 仅 用 解释 模 玉 束 收效 不 


佳 


问 你 为 什么 会 发 生 某 件 事 ， 在 经 过 最 精心 的 分 析 之 后 ， 你 往 


要 是 客户 
往 只 能 老 老实 实地 回答 , “这 件 事 可 以 用 结果 的 随机 性 来 解释 。” 


想 去 公园 吗 ? 


我 从 来 未 注 蒜 这 家 全 打算 来 
哪 一 手 ， 忽 在 他 身上 访 这 的 
行 治 模 型 统统 没 用 。 真希 将 
我 能 说 英语 …… 


其 九 : Google Docs 


我 们 介绍 过 Excel、OpenOffice 及 R， 其 实 Google Docs 也 很 值得 一 提 。 
Google Docs 不 仅 有 功能 完备 的 在 线 电 子 表格 ， 还 可 通过 Gadget 特性 
提供 大 量 图 形 。 


另外 ，Goolge Docs 有 很 多 功能 都 能 帮助 你 访问 实时 在 线 数据 资源 。 


1 
Wane a 4 


mm A vw wth War Prat ch or X, 
» elowny cn or Y cremales 


【Ada go xprendshert ) 


看 者 这 测 央 呆 ooy -= Nimes Timm Smrim Chart 
Decs 挫 家 炉 因 窒 夺 
a ie von ae nacha hp 由 0 
事 非常 过 竟 nn inc i Cor jcn Thn 
FE IN ne Ho cml in me 
courn contuns 


= : 
i EE i 
日 


【Add wa careninhort | 


Have a better iGea? 
inie ynur gan gadpet to Motion Chost 
二 splay dale in cool new ep | Sy 0gn 
wys. Ward 1 Soo ycur Acdyname ash baoceg chokio seman 
Gd sn this ls? WH NTE ey Lm ey ts 
Suhmit tto us Ling Ina courrs: bubdlo “ame, bre ond 2 
aubrrisaion 和 rm Counes of numcnc vsl.cs. Obu"yl 
courre: Num-rh v2iuc of cotoperics 
> Fog ~ dT wa 
en pe Ri es Cioran 
Wren - 
于 


Sr 


款 免费 软件 绝对 值得 一 试 。 


其 十 :你 的 专业 技能 


cy 绍 肌 各 种 工具 ， 但 写 此 相 比 ， 更 信人 振奋 的 十， 你 将 
全 自己 的 专业 技能 赁 借 这 些 工 具 去 发 现世 界 、 改 造 世界 。 祝 你 好 


附录 B: 安装 R 
局 动 R ! 


是 胸 ， 我 要 订 一 矢 世 界 一 涝 的 统计 
坎 件 ， 要 和 能 当 挥 我 的 分 折 潜 力 ， 远 
和 要, 虽 ， 还 要 方便 .和 奎 托 了 。. 


强大 的 数据 分 析 功 能 靠 的 是 复杂 的 内 部 机 制 。 
J 分 钟 束 能 安 闭 和 局 动 R， 本 附录 将 介绍 如 何不 费 吹 灰 之 力 安 


R 起 步 
强大 、 免 费 的 开源 统计 软件 R 可 分 以 下 四 步 快捷 、 简 便 地 进行 安装 。 


前 往 www.r-project.org 下 载 R。 在 身边 找到 一 个 提供 R 的 镜像 并 不 
难 (用 于 Windows、Mac 和 Linux 等 环境 ) 。 


| The R Project for Statistical 
Computing 
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下 载 好 R 程 序 文件 后 ， 双 击 程序 文件 ， 启 动 R 安 装 程序 。 


这 是 名 次 蔡 程 贞 窗 口 . 


在 各 个 窗口 中 ， 单 击 Next (下 一 步 ) ， 接 受 所 有 R 默 认 安装 选项 ， 


让 安装 程序 执行 安装 。 


章 二 Nexz (下 一 步 ) 如 
可 接受 吧 扩 葡 认 配 置 
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这 玄黄 沪 占 交 只 时 的 定 口 ， 


附录 C: 安装 Excel 分 析 工 具 


ToolPak 


我 起 立刻 做 优化 ， 我 不 想 安 
装 什 么 插件 …… 


Excel 有 一 些 最 好 的 功能 在 默认 情况 下 并 不 安装 。 

为 了 执行 第 3 章 的 优化 和 第 9 章 的 直方 网， 需要 激活 Solver 和 Analysis 
ToolPak ，Excel 在 默认 情况 下 安 猴 了 这 两 种 扩展 插件 ， 但 若非 用 户主 
动 操作 ， 这 些 插件 不 会 被 激活 。 

在 Excel 中 安装 数据 分 析 工 具 


按照 下 列 步 又 进行 简单 操作 ， 束 可 以 在 Excel 中 轻松 安装 Analysis 
ToolPak 和 Solver 。 


这 是 /Microsn#t Dice 按 仁 ， 


这 是 xeat 
Options {xcat 选 项 ) . 


单 击 Microsoft Office 按 钮 ， 选 择 Excel Options (Excel 选 项 ) 。 


选择 Add-Ins (插件 ) 标签 ， 单 击 Manage Excel Add-Ins. (管理 
Excel 插 件 ) 旁边 的 Go..。 (执行 ...) 。 


“E94” 标签 


CA Dr Oe hr OO A 
CT Mtesrintads np ge 


章 击 这 个 搂 叙 


Ver bdadsdzm 


务必 选中 Analysis ToolPak 和 Solver 插 件 框 ， 然 后 单 击 OK (人 确 
定 ) 。 


务 品 顽 中 这 两 个 选项 拱 。 


CE 
Helps Ceate formules to find dets n lets 


查看 Data (数据 ) 选项 卡 ， 确 保 Data Analysis (数据 分 析 ) 和 
Solver 按 钮 可 以 使 用 。 


确 休 能 在 Zins 【数据 ) 选 
项 卡 下 看 到 这 些 粮 和 钥 ， 


行 了 ! 
现在 你 已 经 做 好 准备 ， 可 以 使 用 最 优化 、 直 方 图 和 其 他 功能 


本 书 由 “ 行 行 " 整 理 ， 如 果 你 不 知道 读 什 么 书 或 者 想 获 得 更 多 人 免费 电子 
书 请 加 小 编 微 信 或 QQ: 2338856113 小 编 也 和 结交 一 些 喜 欢 读书 的 朋友 
或 者 关注 小 编 个 人 微 信 公众 号 名 称 : 笠 福 的 味道 为 了 方便 书 友 朋友 找 
书 和 看 书 ， 小 编目 己 做 了 一 个 电子 书 下 载 网 站 ， 网 站 的 名 称 为 : 周 读 


网 址 : www.ireadweek.com 


索引 
数字 


3D scatterplots (三 维 散 点 图 ) 
符号 

乙 非 《概率 ) 

<- 赋值 (R) 

\ 换 码 符 

| 假定 (概率 ) 

| 结果 (R) 

* 正则 表达 式 通 配 符 
. 正则 表达 式 通 配 符 
? 主题 信息 (R) 
A 


accuracy analysis (正确 性 分 析 ) 


Adobe Ilustrator 

Algorithm (算法 ) 

alternative causal models (可 相互 换 用 的 因果 模型 ) 
analysis (分 析 ) 

accuracy (正确 性 ) 

definitions of (... 的 定义 ) 

exploratory data (探索 性 数据 ) 

process steps 《过 程 步骤 ) 

step 1: define 〈 步 骤 1:， 确定 ) 

step 2: disassemble 〈 步 骤 2: 分 解 ) 

step 3: evaluate (步骤 3: 评估 ) 

step 4: decide 〈 步 骤 4:， 决策 ) 

purpose of 〈 目 的 ) 

Analysis ToolPak (Excel) 

“anti-resume”(“ 肥 查 ”) 

arrays (lattices) of scatterplots (大 量 散 点 图 ) 
association (关系 ) 

vs. causation (因果 ) 

linear (线性 ) 


assumptions (假设 ) 


based on changing reality (基于 不 断 变 化 的 现实 ) 
baseline set of (基准 ......) 

cataloguing (编目 ) 

evaluating and calibrating (评估 与 校正 ) 
and extrapolation (外 插 法 ) 

impact of incorrect (错误 造成 的 影响 ) 
inserting your own (本 人 介入 ) 

making them explicit (使 ... 变 得 明确 ) 
predictions using (使 用 ... 进 行 预测 ) 
reasonableness of (... 的 合理 性 ) 
reassessing (重新 评估 ) 


regarding variable independence (关于 自 变 量 与 应 变量 
casterisk (*) ( 星 号 (*) ) 
averages，types of (平均 值 类 型 ) 


=AVG() (Excel/OpenOffice 公 式 ) 


B 
Backslash ( 反 斜 杆 (\)) 
baseline expectations (基准 期 望 ) ， ( 男 参见 “假设 ”) 


baseline (null) hypothesis (基准 ( 原 ) 假设 ) 
base rate fallacy (基础 概率 廖 误 ) 


base rates (prior probabilities) 《基础 概率 (事前 概率 ) ) 
Bayes' rule and ( 贝 叶 斯 规则 ) 

Defined (已 确定 ) 

how new information affects (新 信息 带 来 的 影响 ) 

Bayes' rule ( 贝 叶 斯 规则 ) 

effect of base rate on (基础 概率 的 影响 ) 

overview (概述 ) 

revising probabilities using (修正 概率 的 方法 ) 

theory behind (基本 理论 ) 

Beautiful Evidence (Tufte) 《〈《 出 色 的 证 据 》 ( 塔 夫 特 著 ) ) 
Behind the Scenes 〈 花 花 ) 

R.M.S. error formula ( 均 方 根 误差 公式 ) 

R regression object (R 的 回归 对 象 ) 

bell curve ( 铃 形 曲 线 ) 

blind spots (盲点 ) 

Bullet Points (要 点 ) 


client qualities (客户 素质 ) 


questions you should always ask (不 能 不 间 的 问题 ) 


things you might need to predict (可 能 需要 预测 的 问题 ) 


C 


candidate hypothesis (候选 假设 ) 

cataloguing assumptions (假设 分 类 ) 

causation (因果 关系 ) 

alternative models (可 换 用 模型 ) 

vs. association (关系 ) 

causal diagrams (因果 关系 图 ) 

causal networks (因果 关系 网 络 ) 

flipping cause and effect ( 匡 倒 因果 关系 ) 

and scatterplots ( 散 点 图 ) 

searching for causal relationships (寻找 因果 关系 ) 

chance error (residuals) (机 会 误差 〈 残 差 ) ) 

defined (已 确定 ) 

and managing client expectations (管理 客户 预期 ) 

and regression (回归 ) 

residual distribution 〈 残 差分 布 ) 
(同时 参见 “ 均 方 根 误差 ?) 

Chance Error Exposed Interview (机 会 误差 访谈 ) 

charting tools，comparing (制图 工具 ， 比 较 ) 

cleaning data (see raw data) (整理 数据 (参见 “原始 数据 ”) ) 


clients (客户 ) 


assumptions of (假设 ) 

communication with (沟通 ) 

as data (数据 ) 

delivering bad news 〈 说 出 坏 消 息 ) 

examples of (实例 |) 

explaining limits of prediction (解释 预测 局 限 性 ) 
explaining your work (解释 自己 的 工作 ) 

helping them analyze their business (帮助 客户 分 析 业 务 ) 
helping you define problem (帮助 你 确定 问题 ) 
Visualizations (图 形 ) 

listening to (倾听 ) 

mental models of 〈\ 心 智 模型 ) 

professional relationship with (职业 关系 ) 
understanding/analyzing your (理解 /分 析 ) 

cloud function (cloud 范 数 ) 


code examples (see Ready Bake Code) (代码 示例 ， 参 见 “ 预 编程 代 
码 ”) 


coefficient (系数 ) 
correlation (r) (相关 性 (r) ) 
defined (已 确定 ) 


“cognitive art，”(“ 认 知 艺 术 ”) 


comparable，defined (可 比较 ， 已 确定 ) 
comparisons (比较 ) 

break down summary data using 〈 拆 分 汇总 数据 ) 
evaluate using 《评估 ) 

of histograms (直方 图 ) 

and hypothesis testing (假设 检验 ) 

and linked tables (链接 各 个 表格 ) 
making the right (正确 处 理 ) 

method of (方法 ) 

multivariate (多 元 ) 

and need for controls (控制 需求 ) 

and observational data (观察 数据 ) 

of old and new (新 与 旧 ) 

RDBMS 

valid (正确 ) 

visualizing your (图 形 ) 
=CONCATENATE() 

conditional probabilities (条 件 概率 ) 
confounders (混杂 因素 ) 


controlling for (控制 ) 


defined 〈 已 确定 ) 

and observational studies (观察 研究 法 ) 
constraints (约束 条 件 ) 

charting multiple (多 元 图 形 ) 

defined (已 确定 ，) 

and feasible region (可 行 区 域 ) 

as part of objective function (目标 范 数 的 一 部 分 ) 
product mixes and (产品 组 合 ) 

quantitative (定量 ) 

in Solver utility 《Solver 插 件 ) 

contemporaneous controls (同期 控制 法 ) 

control groups (控制 组 ) 

controls (控制 法 ) 

contemporaneous (同期 ) 

historical (历史 ) 

possible and impossible (可 能 与 不 可 能 ) 

Convert Text to Column Wizard (Excel: 文本 转变 为 列 向 导 ) 
cor() (R 命 令 ) 

correlation coefficient(r) (相关 系数 [r) 


=COUNTIF() (Excel/OpenOffice 公 式 ) 


CSV files (CSV 文 件 ) 
curve，shape of (曲线 ， 形 状 ) 


custom-made implementation (定制 改装 ) 

D 

Data (数据 ) 

constantly changing (不 断 变 化 ) 
diagnostic/nondiagnostic (诊断 / 非 诊断 ) 
distribution of (分 布 ) 

dividing into smaller chunks (分 解 为 更 小 的 组 块 ) 
duplicate，in spreadsheet (重复 ， 电 子 表格 ) 
heterogeneous ( 异 质 ) 

importance of comparison of (比较 的 重要 性 ) 
messy (混乱 ) 

observations about (观察 ) 

paired (成 对 ) 

quality/replicability of (质量 /重复 性 ) 
readability of (可 读 性 ) 

scant ( 极 少量 ) 

segmentation (splitting) of (分 区 ) 


subsets ( 子 集 ) 


summary (总 结 ) 

“too much，”( 太 多 ) 

when to stop collecting ( 何 时 停止 收集 ) 

data analysis (see analysis) ”( 数 据 分 析 ， 参 见 “ 分 析 ”) 

Data Analysis for Public Policy (《 公 共 政 策 数据 分 析 》 ( 塔 夫 特 著 ) ) 
data analyst performance (数据 分 析 师 绩效 ) 

empower yourself (提高 自身 ) 

insert yourself (本 人 介入 ) 

not about making data pretty (不 以 数据 美观 为 目的 ) 

professional relationship with clients (与 客户 的 个 人 关系 ) 

showing integrity (体现 公正 ) 

data art (数据 艺术 ) 

databases (数据 库 ) 

defined 〈 已 确定 ) 

relational databases (关系 数据 库 ) 

software for (软件 ) 

data cleaning (see raw data) (数据 整理 (参见 “原始 数据 ”) ) 

data visualizations (see visualizations) ”( 数 据 图 形 (参见 “图 形 ”) ) 
decide (step 4 of analysis process) ” (决策 〈 分 析 步 骤 第 4 步 ) ) 


decision variables (决策 变量 ) 


define (step 1 of analysis process) (确定 (分 析 步 又 第 1 步 ) ) 


defining the problem (确定 问题 ) 

delimiters (分 隔 符 ) 

dependent variables (应 变量 ) 

diagnosticity (诊断 性 ) 

disassemble (step 2 of analysis process) ” (分解 (分 析 
distribution，Gaussian (normal) (高 斯 分 布 ( 正 态 ) 
distribution of chance error (机 会 误差 分 布 ) 
distribution of data (数据 分 布 ) 

diversity of outcomes (结果 差别 ) ， 

dot(.) 《( 点 (.)) 

dot plots (点 阵 图 ， 同 时 参见 “ 敬 点 图 ”) 


duplicate data，eliminating (重复 数据 ， 删 除 ) 
上 

edit() (R 的 编辑 命令 ) 

equations (方程 ) 

linear (线性 ) 

multiple regression (多 元 回归 ) 

objective function (目标 函数 ) 


regression (回归 ) 


slope (斜率 ) 

error (误差 ) 

managing，through segmentation (通过 分 区 进行 管理 ) 
quantitative (量化 ) 


variable across graph (图 形 中 的 变量 ) 


(同时 参见 “机 会 误差 >; 均 方 根 误差 RMS) 
error bands (误差 区 间 ) 
Vl 
Ethics (伦理 学 ) 
and control groups (控制 组 ) 
showing integrity toward clients (向 客户 体现 公正 ) 
evaluate (step 3 of analysis process) (评估 (分 析 步 又 第 3 步 ) ) 
evidence (证 据 ) 
diagnostic (诊断 ) 
in falsification method (证 盆 法 ) 
handling new (处 理 新 消息 ) 
model/hypothesis fitting (模型 /假设 相符 ) 
Excel/OpenOffice 
=AVG() 


Bayes' rule in ( 贝 叶 斯 规则 ) 


charting tools in 〈 制 图 工具 ) 

Chart Output checkbox (图 形 输出 复 选 框 ) 
=CONCATENATE() 

Convert Text to Column Wizard 《数据 转 化 为 列 向 导 ) 
=COUNTIF() 

Data Analysis (数据 分 析 ) 

=FINDO 

histograms in (直方 图 ) 

Input Range field (输入 范围 域 ) 

=LEFTO) 

-LENQO 

nested searches in 〈 航 套 搜索 ) 

no regular expressions in 〈 非 正则 表达 式 ) 
Paste Special function 〈“ 选 择 性 粘贴 ?功能 ) 
pivot tables in (数据 透视 表 ) 

=RANDO 

Remove Duplicates button (“市 除 重复 ”按钮 ) 
=RIGHTO 

Solver 


Changing Cells field (更 改 单元 格 ) 


installing/activating (安装 /激活 ) 
Target Cell field (目标 单元 格 ) 


豆 
5 


定 分 隔 符 ) 


specifying a delimiter (指定 分 
standard deviation in (标准 偏差 ) 
-STDEV0) 

=SUBSTITUTEO 

=SUMIFO 

text formulas 《文本 公式 ) 

=TRIM() 

=VALUE() 

experiments (实验 ) 

control groups (控制 组 ) 

example process flowchart (流程 图 实例 ) 
Vs. observational study (观察 研究 法 ) 
overview (概要 ) 

randomness and (随机 ,) 

for strategy (策略 ) 

exploratory data analysis (探索 性 数据 分 析 ) 


extrapolation (外 揪 法 ) 


F 


false negatives 〈 假 阴性 ) 

false positives ( 假 阳 性 ) 

falsification method of hypothesis testing (假设 检验 证 伪 法 ) 
fast and frugal trees ( 快 省 树 ) 

feasible region (可 行 区 域 ) 

=FIND() (Excel/OpenOffice 公 式 ) 


Fireside Chat (Bayes' Rule and Gut Instinct) ” (今夜 谈 : “ 贝 叶 斯 规则 *” 先 
生 和 “直觉 > 先生) 


flipping the theory (反问 理论 ) 

frequentist hypothesis testing (频率 论 者 假设 检验 ) 
G 

Gadget (Google Docs 特 性 ) 

Galton，Sir Francis (高 尔 顿 妖 士 ) 

Gaps 〈 间 隔 ) 

in histograms (直方 图 ) 

knowledge (知识 ) 


gaps in histograms (直方 图 间隔 ) 


Gaussian (normal) distribution (高 斯 分 布 ( 正 态 分 布 ) ) 
Geek Bits (技巧 ) 
regex Specification (正则 表达 式 规定 ) 


slope calculation (斜率 计算 ) 


getwd() (R 指 令 ) 

Google Docs 

Granularity (颗粒 ) 

graphics (see visualizations) 《图 形 ， 参 见 “ 图 形 ”) 
graph of averages (平均 值 图 形 ) 

groupings of data (数据 分 组 ) 

H 

head() (R 指 令 ) 

Head First Statistics (《 深 入 浅 出 统计 学 》) 
help() (R 指 令 ) 

heterogeneous data ( 异 质 数据 ) 

heuristics (启发 法 ) 


and choice of variables (选择 变量 ) 


defined (已 确定 ) 

fast and frugal tree ( 快 省 树 ) 
human reasoning as (人 类 推理 ) 
vs. intuition (直觉 ) 

overview (概述 ) 

rules of thumb (经 验 ) 


stereotypes as (固定 模式 ) 


strengths and weaknesses of 〈 优 缺点 ) 

hist() (R 指 令 ) 

histograms (直方 图 ) 

in Excel/OpenOffice (Excel/OpenOffice 中 的 ......) 
fixing gaps in (处 理 缺 口 ) 

fixing multiple humps in (处 理 多 个 峰 ) 

groupings of data and (数据 分 组 ) 

normal (bell curve) distribution in ( 正 态 分 布 ( 铃 形 曲 线 ) ) 
overlays of 〈 迭 加 ) 

overview (概述 ) 

in R (R 程 序 ) 

vs. scatterplots 〈 散 点 图 ) 

historical controls (历史 控制 法 ) 

human reasoning as heuristic (启发 式 人 类 推理 法 ) 
hypothesis testing (假设 检验 ) 

diagnosticity (诊断 性 ) 

does it fit evidence (假设 是 否 与 证 据 相符 ) 
falsification method (证 伪 法 ) 

frequentist (频率 论 者 ) 


generating hypotheses (建立 假设 ) 


overview (概述 ) 

satisficing (满意 法 ) 

weighing hypotheses (权衡 假设 法 ) 
I 

Illustrator (Adobe Illustrator) 
independent variables ( 自 变量 ) 
intercepts ( 截 距 ) 

internal variation (内 部 偏差 ) 


interpolation (内 插 法 ) 


intuition vs. heuristics (直觉 与 启发 法 ) 
inventory of observational data (搜集 观察 数据 ) 
iterative，defined (反复 的 ， 确 定 的 ) 

J 

jitter() (R 指 令 ) 

K 

knowledge gaps (知识 缺陷 ) 

L 


二 


lattices (arrays) of scatterplots ( 散 点 图 集 ) 


=LEFT() (Excel/OpenOffice 公 式 ) 


=LEN() (Excel/OpenOffice 公 式 ) 
library() (R 指 令 ) 

linear association (线性 相关 性 ) 

linear equation (线性 方程 ) 

linearity (线性 ) 

linear model object (线性 模型 对 象 ) 
linear programming (线性 编程 ) 

linked spreadsheets (关联 电子 表格 ) 
linked variables (关联 变量 ) 

lIm() (R 指 令 ) 

M 

measuring effectiveness (计量 绩效 ) 
mental models (心智 模型 ) 

method of comparison (比较 方法 ) 
Microsoft Excel (Excel/OpenOffice 程 序 ) 
Microsoft Visual Basic for Applications (VBA) 
models (模型 ) 

fit of (符合 ) 

impact of incorrect (错误 影响 ) 


include what you don't know in (包含 不 了 解 的 因素 ) 


making them explicit (模型 明确 化 ) 

making them testable (模型 可 测试 ) 

mental (心智 的 ) 

need to constantly adjust 〈 需 要 不 断 调 整 ) 
segmented (分 区 ) 

statistical (统计 的 ) 

with too many variables (变量 太 多 ) 
multi-panel lattice visualizations (多 面板 网 格 图 形 ) 
multiple constraints (多 种 约束 条 件 ) 

multiple predictive models (多 种 可 预测 模型 ) 
multiple regression (多 元 回归 ) 


= 


multivariate data visualization (多 变量 数据 图 形 ) 


N 


上 与 . 


negatively linked variables ( 负 相 关 变 量 ) 

networked causes (因果 关系 ) 

nondiagnostic evidence ( 非 诊断 证 据 ) 

nonlinear and multiple regression ( 非 线 性 多 元 回归 ) 
normal (Gaussian) distribution ( 正 态 (高 斯 ) 分 布 ) 
null-alternative testing ( 备 择 检 验 ) 


null (baseline) hypothesis ( 备 择 假设 〈 原 假设 ) ) 


O 


objective function (目标 范 数 ) 
objectives (目标 ) 

“objectivity，” (目标 性 ) 
observational studies (观察 研究 ) 
OpenOffice (参见 Excel/OpenOffice) 
operations research (运算 研究 ) 
optimization (最 优化 ) 

and constraints (约束 条 件 ) 

vs. falsification (证 伪 法 ) 

vs. heuristics (启发 法 ) 

overview (概述 ) 

solving problems of (解决 问题 ) 

using Solver utility for (Solver 功 能 ) 
order() (R 指 令 ) 

outcomes，diversity of (多 种 结果 ) 
out-of-the-box implementation ( 现 买 现 用 ) 


overlays of histograms ( 重 迭 直方 图 ) 
Pp 
paired data (成 对 数据 ) 


perpetual ，iterative framework (反复 不 断 地 构建 ) 
pipe character (| 字符 ) 

in Bayes' rule ( 贝 叶 斯 规则 ) 

in R commands (R 指 令 ) 

pivot tables (数据 透视 表 ，) 

plot() (R 命 令 ) 

polynomial regression (多 项 式 回归 ) 

positively linked variables 〈 正 相关 变量 ) 

practice downloads 〈 练 习 下 载 : www.headfirstlabs.com/books/hfda/) 
bathing_friends_unlimited.xls 
hfda_ch04 home pagel.csv 
hfda_ch07_data_transposed.xls 
hfda_ch07_new_probs.xls 
hfda_ch09_employees.csv 
hfda_ch10_employees.csv 
hfda_ch12_articleHitsComments.csV 
hfda_ch12_articles.csV 

hfda_ch12_issues.csv 

hfda_ch12_sales.csv 


hfda_ch13 raw_data.csv 


hfda.R 

historical_sales_data.xls 

prediction (预测 ) 

balanced with explanation (加 以 解释 ) 
and data analysis (数据 分 析 ) 
deviations from (偏差 ) 

explaining limits of (解释 限制 条 件 ) 
outside the data range (extrapolation) (超出 数据 范围 (外 插 ) ) 
and regression equations (回归 方程 ) 
and scatterplots ( 散 点 图 ) 

prevalence ，effect of (程度 ， 效 果 ) 
previsualizing (想象 ) 


prior probabilities (see base rates [prior probabilities]) (事前 概率 ( 参 
见 “ 基 础 概率 | 事前 概率 | ”) ) 


probabilities (概率 ) 
Bayes' rule and ( 贝 叶 斯 规则 ) 
calculating false positives，negatives (计算 假 了 昌 性 、 假 阴性 ) 
common mistakes in (普通 错误 ) 
conditional (条 件 ) 
(同时 参见 “主观 概率 ”) 
probability histograms (概率 直方 图 ) 


product mixes (产品 组 合 ) 


Q 

Quantitative (定量 ) 

Constraints (约束 条 件 ) 

Errors (误差) 

linking of pairs (数据 相关 ) 

making goals and beliefs (制定 目标 ， 确 立信 念 ) 
relationships (关系 ) 

relations in RDBMS 《相关 数据 库 中 的 关系 ) 
theory (理论 ) 

querying (查询 ) 

defined (已 确定 ) 

linear model object in R (R 中 的 线性 模型 对 象 ) 
SQL 

question mark (? )”(R 中 的 问号 ) 

R 

R 

charting tools ip (绘图 工具 ) 

cloud function (cloud 范 数 ) 


command prompt (指令 提示 ) 


commands ( 指 


2 

cor() 
edit() 
getwd() 
head() 
helpO 
hist() 
jitter() 
library() 
Im0) 
order() 


plotQ) 


read.csv() 


save.imagel() 


sd() 
source() 
sub() 
summary!() 


uniquel() 


令 


) 


Write.CSV() 

xyplot() 

community of users (用 户 社 区 ) 

defaults (默认 值 ) 

described (描述 ) 

dotchart function in (dotchart 范 数 ) 

histograms in (直方 图 ) 

installing and running (安装 与 运行 ) 

pipe character in (| 字符 ) 

regular expression searches in (正则 表达 式 搜索 ) 
scatterplot arrays in ( 散 点 图 集合 ) 

r (correlation coefficient) ” (相关 系数 r) 
=RAND() (Excel/OpenOffice 公 式 ) 

randomized controlled experiments (随机 控制 实验 ) 
Randomness (随机 ,) 

Randomness Exposed Interview (随机 访谈 ) 
random surveys (随机 调查 ) 

rationality (理性 ) 

raw data (原始 数据 ) 


disassembling (分 解 ) 


evaluating 《评估 ) 

flowchart for cleaning (整理 流程 图 ) 

previsualize final data set (最 终 数据 外 观 ) 

using delimiter to split data (使 用 分 隔 符 分 隔 数 据 ) 

using Excel nested searches (使 用 Excel 敬 套 搜 索 ) 

using Excel text formulas (使 用 Excel 文 本 公式 ) 

using R regular expression searches (使 用 R 正 则 表达 式 搜索 ) 
using R to eliminate duplicates in (使 用 R 消 除 重复 数据 ) 
RDBMS (关系 数据 库 管理 系统 ) 

read.csv() (R 指 令 ) 

Ready Bake Code ( 预 编 代码 ) 

calculater in R (在 R 中 计算 r) 

generate a scatterplot in R (在 R 中 生成 散 点 图 ) 
recommendations (建议 ， 参 见 “ 客 户 报 告 ”) 

regression (回归 ) 

balancing explanation and prediction in (平衡 解释 与 预测 ) 
and chance error (机 会 误差 ) 

correlation coefficient(r) and (相关 系数 rr) 

Data Analysis for Public Policy (《 公 共 政 策 数 据 分 析 》 ( 塔 夫 特 著 ) ) 
Linear (线性 ) 


linear correlation and (线性 相关 ) 

nonlinear regression 〈 非 线性 回归 ) 

origin of name (名 字 来 源 ) 

overview (概述 ) 

polynomial (多 项 式 ) 

and R.M.S. error ( 均 方 根 误差 ) 

and segmentation (分 区 ) 

regression equations (回归 方程 ) 

regression lines (回归 线 ) 

regular expression searches (正则 表达 式 搜索 ) 
relational database management system 《相关 数据 库 管 理 系统 RDBMS) 
relational databases (关系 数据 库 ) 
replicability (重复 性 ) 

reports to clients (给 客户 的 报告 ) 

examples of (实例 ) 

guidelines for writing (撰写 指南 ) 

using graphics (使 用 图 形 ) 

representative samples (典型 抽样 ) 

residual distribution 〈 残 差分 布 ) 


residuals 〈 残 差 ， 参 见 “ 机 会 误差 ”) 


residual standard error 〈 残 差 标准 差 ， 参 见 “ 均 方 根 误差 ?) 
=RIGHTO (Excel/OpenOffice 公 式 ) 

rise (高 ) 

Root Mean Squared (R.M.S.) error ( 均 方 根 误差 ) 
compared to standard deviation (与 标准 偏差 进行 比较 ) 
defined (已 确定 ) 

formula for (公式 ) 

improving prediction with (改进 预测 ) 

R 

regression and (回归 ) 

rules of thumb (经 验 ) 

run ( 边 长 ) 

S 

Sampling (抽样 ) 

Satisficing (满意 法 ) 

save.image() (R 指 令 ) 

scant data (数据 匮乏 ) 

scatterplots 〈 散 点 图 ) 

3D 


creating from spreadsheets in R (在 R 中 用 电子 表格 创建 ) 


drawing lines for prediction in (绘制 预测 线 ) 
vs. histograms (直方 图 ) 

lattices (arrays) of (网 格 (数组 ) ) 
magnet chart (数据 点 图 ) 

overview (概述 ) 

regression equation and (回归 方程 ) 
regression lines in (回归 线 ) 

sd() (R 指 令 ) 

segmentation (分 区 ) 

segments (分 区 ) 

self-evaluations ( 自 评 ) 

sigma (0， 参 见 “ 均 方 根 误差 ”) 
slope (斜率 ) 

Solver 

Sorting (排序 ) 

source() (R 指 令 ) 

splitting data ( 拆 分 数据 ) 


spread of outcomes (结果 分 布 ) 


spreadsheets (电子 数据 表 ) 


charting tools (绘图 工具 ) 


linked (关联 ) 
provided by clients (来 自 客户 ) 
(同时 参见 Excel/OpenOffice) 
SQL (结构 化 查询 语言 ) 
standard deviation (标准 偏差 ) 
calculating the (计算 ) 
defined (已 确定 ) 
and R.M.S. error calculation ( 均 方 根 误差 计算 ) 
and standard units (标准 单位 ) 
=STDEV 
standard units (标准 单位 ) 
statistical models (统计 模型 ) 
=STDEV() (Excel/OpenOffice 公 式 ) 
stereotypes as heuristics (固定 模式 ， 启 发 式 ) 
strip，defined (区 间 ， 己 确定) 
Structured Query Language (结构 化 查询 语言 SQL) 
sub() (R 指 令 ) 
subjective probabilities (主观 概率 ) 
charting (绘图 ) 


defined (已 确定 ) 


describing with error ranges (描述 误差 范围 ) 
overcompensation in (过 度 补偿 ) 

overview (概述 ) 

quantifying (量化 ) 

revising using Bayes' rule (使 用 贝 叶 斯 规则 进行 修正 ) 
strengths and weaknesses of 《优点 和 缺点 ) 

subsets of data (数据 子 集 ) 

=SUBSTITUTE() (Excel/OpenOffice) 

=SUMIF() (Excel/OpenOffice 公 式 ) 

summary() (R 指 令 ) 

summary data (汇总 数据 ) 

surprise information (惊人 的 信息 ) 

surveys (调查 ) 

工 

tag clouds (标签 云 ) 

Test Drive (“一 斌 身手 ”) 

Using Excel for histograms (用 Excel 绘 制 直方 图 ) 
Using R to get R.M.S. error (用 R 计 算 均 方 根 误差 ) 
Using Solver (使 用 Solver) 


tests of significance (显著 性 检验 ) 


由 


心智 模型 ) 
thinking with data 〈 用 数据 思考 ) 
tilde (~) 


theory (理论 


ToolPak (Excel) 

Transformations (变形 ) 

=TRIM() (Excel/OpenOffice 公 式 ) 

Troubleshooting 〈 处 理 问题 ) 

activating Analysis ToolPak (激活 Analysis ToolPak) 
Data Analysis button missing (数据 分 析 按 钮 不 出 现 ) 
gaps in Excel/OpenOffice histograms (Excel/OpenOf-fice 直 方 图 缺口 ) 
histogram not in chart format ( 非 图 形 格式 直方 图 ) 
read.csv() (R 指 令 ) 

Solver utility not on menu (菜单 中 不 见 Solver 功 能 ) 
true negatives 〈 真 阴性 ) 

true positives ( 真 阳性 ) 

Tufte，Edward (爱德华 - 塔 夫 特 ) 


two variable comparisons (两 种 变量 比较 ) 
U 
ultra-specified problems ( 超 规范 问题 ) 


uncertainty (不 确定 因素 ) 


uniqueO (R 指 令 ) 

Up Close (细节 放大 ) 

conditional probability notation (条 件 概 率 记 法 ) 
confounding (混杂 ) 

correlation (相关 ) 

histograms (直方 图 ) 

your data needs (数据 需要 ..…...) 


your regular expression (正则 表达 式 ) 


V 

=VALUE() (Excel/OpenOffice 公 式 ) 
Variables (变量 ) 

Decision (决策 ) 


Dependent (应 变 ) 


Independent ( 自 变 ) 


Linked (相关 ) 

Multiple (多 个 ) 

Two (两 个 ) 
variation，internal (内 部 偏差 ) 
vertical bar (|) 


in Bayes' rule ( 贝 叶 斯 规则 ) 


in R commands (R 命 令 ) 
Visual Basic for Applications (VBA) 
Visualizations (图 形 ) 
Beautiful Evidence (《 可 靠 的 证 据 》 ( 塔 夫 特 著 ) ) 
causal diagrams (因果 关系 图 ) 
data art (数据 艺术 ) 
examples of poor (不 合格 实例 ) 
fast and frugal trees ( 快 省 树 ) 
making the right comparisons (正确 比较 ) 
multi-panel lattice (多 面板 网 格 图 ) 
multivariate (多 变量 ) 
overview (概述 ) 
in reports (报告 ) 
software for (软件 ) 
(同时 参见 “直方 图 *”、“ 散 点 图 ”) 
W 
Watch it! (小心! ) 


always keep an eye on your model assumptions ( 千 万 对 模型 假设 保持 式 
心 ) 


always make comparisons explicit ( 千 万 要 进行 明确 比较 ) 


does your regression make sense? (回归线 有 意义 吗 ?) 


way off on probabilities (概率 错觉 ) 
websites (网 站 ) 

to download R (下 载 R) 

Edward Tufte (爱德华 . 塔 夫 特 ) 
Head First (深入 浅 出 ) 

tag clouds (标签 云 ) 

whole numbers (整数 ) 

wildcard search (通配符 搜索 ) 


write.csv() (R 指 令 ) 

X 

xyplot() (R 指 令 ) 

Y 

y-axis intercept (Y 轴 截 距 ) 
如 果 你 不 知道 读 什么 书 ， 


束 关 注 这 个 微 信 号 。 


微 信 公众 号 名 称 : 驻 福 的 味道 
加 小 编 微 信 一 起 读书 


小 编 微 信号 : 2338856113 


【幸福 的 味道 】 已 提供 200 个 不 同类 型 的 书 单 

1、 历 届 茅 盾 文 学 奖 获 奖 作品 

2、 每 年 豆 辨 ， 当 当 ， 亚 马 逊 年 度 图 书 销售 排行 榜 
3、25 乡 前 一 定 要 读 的 25 本 书 

4、 有 生 之 年 ， 你 一 定 要 看 的 25 部 外 国 纯 文学 名 车 
5、 有 生 之 年 ， 你 一 定 要 看 的 20 部 中 国 现 当 代 名 著 
6、 美 国 亚 马 进 编辑 推荐 的 一 生 必 读书 单 100 本 
7、 30 个 领域 30 本 不 容错 过 的 入 门 书 

8、 这 20 本 书 ， 是 各 领域 的 误 峰 之 作 


9、 这 7 本 书 ， 教 你 如 何 高 效 读书 

10、 80 万 书 虫 力荐 的 “给 五 星 都 不 够 ”的 30 本 书 

关注 “幸福 的 味道 ” 微 信 公众 号 ， 即 可 查看 对 应 书 单 和 得 到 电子 书 
WW 


也 可 以 在 我 的 网 站 ( 周 读 ) w.ireadweek.com 自行 下 载 


